К вакансиям
Data Engineer

Data Engineer Senior Remote

ID: 21090
8 часов назад
Активна
Centicore
Россия
350 000 ₽ - 380 000 ₽

Тип занятости

Полная занятость

Формат работы

Удаленная работа

📞Способы связи

📄 Оригинальный текст вакансии

#вакансия #fulltime #remote #senior #dataengineer #llm #rag Компания Centicore💙 находится в поисках Senior Data Engineer (LLM / RAG). Мы занимаемся продуктовой и платформенной разработкой под ключ для крупных заказчиков. В рамках проекта команда строит промышленную data-платформу для работы с большими языковыми моделями (LLM) и Retrieval-Augmented Generation (RAG). Формат работы: Удаленка по РФ Вилка: 350–380k на руки (в зависимости от опыта и пожеланий кандидата) Уровень: Senior 🔷 Требования: Отличное знание Python: структуры данных, итераторы, декораторы, асинхронное и параллельное программирование, OOP и FP Уверенное владение SQL: сложные запросы, CTE, оконные функции Опыт работы с vector DB: OpenSearch, Qdrant Опыт построения batch и streaming-сервисов для расчёта embeddings и загрузки их в векторные хранилища Понимание принципов RAG и обогащения LLM контекстными данными Опыт разработки промышленных ETL-сервисов на Python Опыт оркестрации пайплайнов: Apache Airflow, Argo Workflows Хорошее знание Apache Spark / PySpark (производительность, отладка, Spark History Server) Опыт асинхронного взаимодействия с веб-сервисами по REST API (aiohttp, httpx) Опыт работы с PostgreSQL, Oracle Опыт работы с Big Data-хранилищами: Hadoop/HDFS, S3, Hive, Iceberg Опыт работы в JupyterLab / JupyterHub 🔷 Будет плюсом: Опыт потоковой обработки данных Опыт работы в AI / ML / LLM-проектах Понимание требований к данным для обучения и эксплуатации ML-моделей Опыт построения отказоустойчивых data-сервисов в enterprise-среде 🔷 Обязанности: Разработка сервисов пакетной и потоковой обработки данных для вычисления векторных представлений (embeddings) Загрузка и сопровождение данных в векторных хранилищах для использования в RAG-сценариях Разработка и поддержка ETL-пайплайнов под управлением Airflow / Argo Оптимизация SQL-запросов и Spark-приложений Взаимодействие с командами Data Science, ML/LLM и инфраструктуры Участие в развитии data-платформы для LLM-решений 💌 Для откликов и вопросов — писать в лс @ktvsk_d Будем рады знакомству! ❤️

🛠 Навыки

Apache Airflow
Apache Spark
Argo Workflows
Hadoop
HDFS
Hive
Iceberg
JupyterHub
JupyterLab
Opensearch
Oracle Relational Database
PostgreSQL
Python (computer programming)
Qdrant
S3
SQL

🎯 Домены

AI
LLM
ML
RAG

🤖 ИИ навыки

Amazon S3
Apache Airflow
Apache Hive
Apache Iceberg
Apache Spark
Argo Workflows
database
data extraction, transformation and loading tools
Hadoop
JupyterLab
Opensearch
Oracle Relational Database
PostgreSQL
Python (computer programming)
Qdrant
SQL

* Навыки определены автоматически с помощью нейросети

🤖 ИИ домены

Artificial Intelligence
Big Data
Data Engineering
LLM
Machine Learning
Retrieval-augmented generation

* Домены определены автоматически с помощью нейросети

📢 Информация о публикации

🔗 Оригинальные посты (1)