ML Engineer
Machine Learning Engineer LLM/RL Senior On-site
6 ноября 2025 г.
Активна
Объединенные Арабские Эмираты, Абу-Даби
Тип занятости
Полная занятость
Требуемый опыт
От 3 до 6 лет
Формат работы
Полный день
📞Способы связи
📄 Оригинальный текст вакансии
Вакансия: Senior Machine Learning Engineer - LLM/RL
О компании
Компания является end-to-end фармацевтической/биотехнологической, работающей на основе искусственного интеллекта. Ключевая миссия — ускорять открытие и разработку новых лекарств, используя быстро развивающуюся, собственную платформу и модели в областях биологии, химии и клинических исследований. В настоящий момент я в поиске Senior ML Engineer'а (LLM/RL) для создания и масштабирования GenAI-моделей в рамках задач области молекулярного дизайна.
Формат/локация
Офис в Абу-Даби (обязательная релокация после испытательного периода).
Чем предстоит заниматься:
- разрабатывать и масштабировать процессы тонкой настройки (fine-tuning) больших языковых моделей (LLM) с помощью обучения с подкреплением, включая такие методы, как RLVR/RLHF;
- создавать и оптимизировать высокопроизводительные конвейеры обучения трансформеров в средах с несколькими GPU и узлами (multi-GPU, multi-node);
- адаптировать модели для решения специфических задач в области дизайна молекул и разработки лекарств, таких как генерация молекул и предсказание их свойств;
- руководить планированием экспериментов, отслеживать ключевые метрики, а также представлять результаты и выводы в виде презентаций и/или публикаций.
Образование:
Магистр наук (M.S.), кандидат наук (Ph.D.) или эквивалентный опыт в области компьютерных наук, машинного обучения, вычислительной химии или другой смежной количественной дисциплины.
Обязательные навыки и опыт:
- ML: Не менее пяти лет опыта в инженерии машинного обучения;
- трансформеры: глубокие знания в области обучения и развертывания больших моделей-трансформеров с использованием PyTorch.
- алгоритмы обучения с подкреплением (RL): Практический опыт работы с такими методами, как PPO/DPO/RLOO/GRPO, и другими related policy gradient and preference-based optimization методами оптимизации на основе предпочтений и градиента политики.
- масштабируемые конвейеры обучения: владение техниками параллелизма данных, моделей, контекста и конвейера (data, model, context, and pipeline parallelism).
- интеграция reinforcement функции: практический опыт разработки разнообразных функций вознаграждения (reward functions) и моделей вознаграждения (reward models);
- инструменты/архитектура/технологии: отличное знание Python, а также опыт использования Hugging Face Transformers, TRL/RLlib/verl, DeepSpeed, vLLM, Docker, Sagemaker и процессов CI/CD;
Будет плюсом:
- уровень Senior: не менее двух лет на позиции старшего специалиста;
- владение математическими пакетами: MATLAB, MATHCAD, MATEMATICA;
- разработка лекарств и молекулярный дизайн: Бэкграунд в области химии, хемоинформатики, структурной биологии или опыт работы с генеративными моделями для молекул;
- генеративные модели: знание диффузионных моделей, flow-based моделей и других генеративных моделей;
- научное лидерство: наличие публикаций в области машинного обучения.
Если есть попадание/вы знаете того, кто может иметь необходимый опыт и сферу интересов - пожалуйста, присылайте CV и контакты мне в тг @katyapunk :)
🛠 Навыки
CI/CD
DeepSpeed
Docker
Hugging Face Transformers
manage ICT virtualisation environments
project configuration management
Python
Python (computer programming)
PyTorch
RLlib
Sagemaker
software components libraries
TRL
verl
vLLM
🎯 Домены
AI
Artificial Intelligence
Biotech
Biotechnology
Healthcare
ML
Pharma
Pharmaceuticals
🤖 ИИ навыки
apply statistical analysis techniques
build recommender systems
CI/CD
Context parallelism
Data Mining
Data parallelism
Data Science
Deep Learning
DeepSpeed
Docker
DPO
Fine-tuning
GRPO
Hugging Face Transformers
Jenkins (tools for software configuration management)
Machine Learning
manage ICT virtualisation environments
Model parallelism
Multi-GPU training
Multi-node training
Natural language processing
Pipeline parallelism
PPO
Python
Python (computer programming)
PyTorch
Reinforcement Learning
Reward Modeling
RLlib
RLOO
Sagemaker
software components libraries
statistical modeling techniques
supercomputing
Transformers
TRL
verl
vLLM
* Навыки определены автоматически с помощью нейросети
🤖 ИИ домены
AI for Science
Biotechnology
Computational Chemistry
Drug design
Drug Discovery
Generative AI
Healthcare
Machine Learning
Molecular Design
Molecular modelling
Pharmaceutical industry
Pharmaceuticals
Structural Biology
* Домены определены автоматически с помощью нейросети