Data Scientist

Data Scientist NLP LLM Senior Remote

ID: 37458

1 день назад

Активна

Россия

Требуемый опыт

От 3 до 6 лет

Формат работы

Удаленная работа

📞Способы связи

@fr_rectelegram

📄 Оригинальный текст вакансии

#вакансия #удаленно #россия Data Scientist (NLP|LLM) в крупнейшую в России Digital Health платформу, объединяющая различные сервисы цифровой медицины. Компания рассматривает кандидатов только из России З/п: обсуждается индивидуально. Формат работы: Офис, Гибрид(Москва,уютный офис в БЦ Симонов Плаза с видом на Москва-реку); Удаленка. Уровень позиции: Senior 🔷Задачи: Проектировать и поддерживать полный цикл улучшения медицинских LLM: сбор, очистка, версионирование данных, обучение и дообучение (SFT, preference-tuning, DPO/ORPO, instruction tuning). Строить датасеты и контуры разметки: схемы и гайдлайны, контроль согласованности, генерация синтетических данных, self-training, анализ ошибок и bias. Разрабатывать LLM-based пайплайны и агентов для медицинских задач: RAG по клиническим рекомендациям и справочникам, tool-calling, маршрутизация, multi-step workflows, оркестрация (LangGraph и мультиагентные фреймворки), guardrails. Создавать и развивать систему оценивания: тест-наборы и бенчмарки, автоматические метрики и LLM-as-a-judge там, где уместно, экспертная валидация с врачами, red-teaming, регрессионные прогоны, A/B тестирование в проде. Проводить исследовательские итерации: формулировать гипотезы, ставить эксперименты, делать ablation-исследования, документировать результаты, готовить научные статьи и доводить материалы до публикации. 🔷Обязательные требования: 3+ лет в NLP/ML, уверенный Python: типизация, тестирование, профилирование, аккуратный продакшн-код. Практический опыт обучения и дообучения трансформеров: PyTorch + HuggingFace, понимание Accelerate, DeepSpeed или аналогов. Опыт построения data-pipelines и воспроизводимых экспериментов: датасеты, версии, конфиги, трекинг (MLflow или ClearML), умение делать корректные сравнения. Понимание LLM-систем: retrieval, tool-calling, агенты, деградации качества, галлюцинации, ограничения продакшна. Навыки оценки качества: метрики, бенчмарки, error analysis, ablations, работа с разметкой и экспертной валидацией. Опыт в медицине или биомеде: клинические тексты, ICD-10, клин. рекомендации, понимание доменных рисков. Опыт alignment: preference data, RLHF, DPO, safety eval, hallucination mitigation. Практика продакшн-инференса: vLLM, оптимизация стоимости и задержки, Docker, K8s, мониторинг, трассировка. Опыт с retrieval-стеком: hybrid search, rerankers, FAISS, Elastic, pgvector, продуманноеchunking, grounding. Отклики ждём @fr_rec

🛠 Навыки

design database in the cloud

manage ICT virtualisation environments

Python (computer programming)

seismology

software components libraries

🎯 Домены

Healthcare

NLP

🤖 ИИ навыки

assist judge

collaborate through digital technologies

critically evaluate information and its sources

Data Mining

Data Warehouse

Deep Learning

draft scientific or academic papers and technical documentation

evaluate implementation of safety procedures

gather experimental data

generate reconciliation reports

hybrid model

improve customer traveling experiences with augmented reality

kinetics

lead process optimisation

levels of software testing

Machine Learning

manage currency exchange risk mitigation techniques

manage database

manage ICT virtualisation environments

monitor grounds

Natural language processing

perform failure analysis of production process

position guardrails and toeboards

prepare timelines for pipeline development projects

principles of artificial intelligence

Python (computer programming)

software components libraries

teach windsurfing

tune instruments on stage

tuning techniques

use reheating techniques

* Навыки определены автоматически с помощью нейросети

🤖 ИИ домены

Biomedical informatics

Clinical data

Clinical guidelines

Digital Health

Healthcare

ICD-10

* Домены определены автоматически с помощью нейросети

📢 Информация о публикации

🔗 Оригинальные посты (1)

https://t.me/Machinelearning_Jobs/122000

Канал:Machinelearning_Jobs