К вакансиям
Data Scientist

Data Scientist NLP LLM Senior Remote

ID: 37458
1 день назад
Активна
Россия

Требуемый опыт

От 3 до 6 лет

Формат работы

Удаленная работа

📞Способы связи

📄 Оригинальный текст вакансии

#вакансия #удаленно #россия Data Scientist (NLP|LLM) в крупнейшую в России Digital Health платформу, объединяющая различные сервисы цифровой медицины. Компания рассматривает кандидатов только из России З/п: обсуждается индивидуально. Формат работы: Офис, Гибрид(Москва,уютный офис в БЦ Симонов Плаза с видом на Москва-реку); Удаленка. Уровень позиции: Senior 🔷Задачи: Проектировать и поддерживать полный цикл улучшения медицинских LLM: сбор, очистка, версионирование данных, обучение и дообучение (SFT, preference-tuning, DPO/ORPO, instruction tuning). Строить датасеты и контуры разметки: схемы и гайдлайны, контроль согласованности, генерация синтетических данных, self-training, анализ ошибок и bias. Разрабатывать LLM-based пайплайны и агентов для медицинских задач: RAG по клиническим рекомендациям и справочникам, tool-calling, маршрутизация, multi-step workflows, оркестрация (LangGraph и мультиагентные фреймворки), guardrails. Создавать и развивать систему оценивания: тест-наборы и бенчмарки, автоматические метрики и LLM-as-a-judge там, где уместно, экспертная валидация с врачами, red-teaming, регрессионные прогоны, A/B тестирование в проде. Проводить исследовательские итерации: формулировать гипотезы, ставить эксперименты, делать ablation-исследования, документировать результаты, готовить научные статьи и доводить материалы до публикации. 🔷Обязательные требования: 3+ лет в NLP/ML, уверенный Python: типизация, тестирование, профилирование, аккуратный продакшн-код. Практический опыт обучения и дообучения трансформеров: PyTorch + HuggingFace, понимание Accelerate, DeepSpeed или аналогов. Опыт построения data-pipelines и воспроизводимых экспериментов: датасеты, версии, конфиги, трекинг (MLflow или ClearML), умение делать корректные сравнения. Понимание LLM-систем: retrieval, tool-calling, агенты, деградации качества, галлюцинации, ограничения продакшна. Навыки оценки качества: метрики, бенчмарки, error analysis, ablations, работа с разметкой и экспертной валидацией. Опыт в медицине или биомеде: клинические тексты, ICD-10, клин. рекомендации, понимание доменных рисков. Опыт alignment: preference data, RLHF, DPO, safety eval, hallucination mitigation. Практика продакшн-инференса: vLLM, оптимизация стоимости и задержки, Docker, K8s, мониторинг, трассировка. Опыт с retrieval-стеком: hybrid search, rerankers, FAISS, Elastic, pgvector, продуманноеchunking, grounding. Отклики ждём @fr_rec

🛠 Навыки

design database in the cloud
manage ICT virtualisation environments
Python (computer programming)
seismology
software components libraries

🎯 Домены

AI
Healthcare
ML
NLP

🤖 ИИ навыки

assist judge
collaborate through digital technologies
critically evaluate information and its sources
Data Mining
Data Warehouse
Deep Learning
draft scientific or academic papers and technical documentation
evaluate implementation of safety procedures
gather experimental data
generate reconciliation reports
hybrid model
improve customer traveling experiences with augmented reality
kinetics
lead process optimisation
levels of software testing
Machine Learning
manage currency exchange risk mitigation techniques
manage database
manage ICT virtualisation environments
monitor grounds
Natural language processing
perform failure analysis of production process
position guardrails and toeboards
prepare timelines for pipeline development projects
principles of artificial intelligence
Python (computer programming)
software components libraries
teach windsurfing
tune instruments on stage
tuning techniques
use reheating techniques

* Навыки определены автоматически с помощью нейросети

🤖 ИИ домены

Biomedical informatics
Clinical data
Clinical guidelines
Digital Health
Healthcare
ICD-10

* Домены определены автоматически с помощью нейросети

📢 Информация о публикации

🔗 Оригинальные посты (1)