К вакансиям
ML Engineer

AI/ML Engineer Distributed Training on GPU Clusters

10 часов назад
Активна

📞Способы связи

📄 Оригинальный текст вакансии

AI/ML Engineer — Distributed Training on GPU Clusters Мы создаём платформу, которая позволяет обучать AI-модели (включая LLM) на простаивающих GPU в дата-центрах. Наша задача — построить распределённую систему, которая принимает зашифрованные данные клиентов, запускает обучение в разных дата-центрах и возвращает результаты с максимальной производительностью и устойчивостью. Ищем инженера, который поможет спроектировать и реализовать core-компоненты распределённого ML-пайплайна. Обязанности - Разработка пайплайна обучения моделей (LLM, классические ML, мультимодальные модели). - Интеграция PyTorch/TensorFlow/JAX с нашей compute-платформой. - Настройка и оптимизация распределённого обучения (Data Parallel, Model Parallel, FSDP/ZeRO, DDP). - Разработка и оптимизация контейнеров для задач обучения (Docker + Kubernetes + GPU). - Создание и поддержка пайплайна: загрузка данных → подготовка → обучение → выгрузка артефактов. - Работа с GPU-профилированием и оптимизацией (CUDA/NCCL). - Взаимодействие с backend-инженерами для определения API job-орchestration. - Настройка мониторинга: метрики, логи, профайлинг обучения. - Исследование и тестирование новых фреймворков и подходов для ускорения LLM-обучения. Требования - Глубокие знания Python, опыт коммерческой разработки. - Отличный опыт работы с PyTorch (желательно — также TensorFlow или JAX). - Опыт настройки распределённого обучения: - PyTorch Distributed / DDP - DeepSpeed / FSDP / ZeRO - HuggingFace Accelerate - Понимание CUDA, NCCL, работы GPU и их ограничений. - Умение писать высокопроизводительный код для тренировки моделей. - Опыт работы с Docker, желательно — Kubernetes. - Понимание архитектуры ML-процессинга: датасеты, загрузчики, чекпоинты, ресюмы, метрики. - Умение разбираться в performance bottlenecks (CPU/GPU, IO, сеть). - Знание инструментов для мониторинга: TensorBoard, Weights & Biases, Prometheus. Будет плюсом - Опыт fine-tuning и обучения моделей LLM. - Работа с DeepSpeed/Megatron-LM, Alpaca, HF Transformers. - Навыки оптимизации inference (Triton, ONNX, TensorRT). - Опыт разработки кластерных систем. - Базовые знания Go или Rust для взаимодействия с низкоуровневым runtime. Мы предлагаем - Возможность влиять на архитектуру compute-платформы с самого начала. - Работа с десятками/сотнями GPU в разных дата-центрах. - Свобода в выборе технологий для оптимального ML-пайплайна. - Сложные технические задачи, быстрое принятие решений, отсутствие бюрократии. - Роль, которая напрямую влияет на рост бизнеса. Контакт: @merqry

🛠 Навыки

Computer Vision
distributed ledger technology
manage ICT virtualisation environments
Python (computer programming)
software components libraries

🎯 Домены

AI
LLM
ML

🤖 ИИ навыки

clear pipelines
Computer Vision
create model
Data Warehouse
distributed ledger technology
lift heavy weights
Machine Learning
manage ICT virtualisation environments
periodisation
profile people
Python (computer programming)
software components libraries
supercomputing

* Навыки определены автоматически с помощью нейросети

🤖 ИИ домены

Artificial Intelligence
Cloud Computing
Compute platforms
Data Centers
Distributed Computing
High-Performance Computing
Large Language Models
Machine Learning
MLOps
Model training

* Домены определены автоматически с помощью нейросети

📢 Информация о публикации

🔗 Оригинальные посты (1)