#vacancy #Вакансия #fintech #remote
DevOps - MLOps
грейд: middle/senior
Работа ТОЛЬКО через ИП.
локация: РФ
Требования:
• Языки: Python, Java, Bash.
• Оркестрация и CI/CD: Kubernetes (k8s), GitLab CI/CD, Helm.
• Базы данных и Big Data: PostgreSQL, ClickHouse, Hadoop, Trino, Airflow, Redis.
• Observability: Grafana, Prometheus, OpenSearch.
• ML & AI Infrastructure: vLLM, LightLLM, GPU-ноды.
• Безопасность: Keycloak, OAuth2, HashiCorp Vault.
Чем предстоит заниматься:
• Администрирование ML-инфраструктуры: Поддержка и масштабирование Kubernetes-кластеров с GPU-нодами, развертывание и оптимизация сервисов инференса (vLLM, LightLLM).
• Развитие CI/CD: Проектирование и улучшение пайплайнов в GitLab CI/CD, ускорение сборок.
• Автоматизация рутины: Замена ручных операций на автоматизированные сценарии, разработка ботов и агентов для поддержки команды.
• MLOps: Автоматизация жизненного цикла ML-моделей: от обучения и тестирования до деплоя и мониторинга дрейфа данных.
• Observability: Настройка комплексного логирования, мониторинга и алертинга (Prometheus, Grafana, OpenSearch) для всех компонентов системы.
• Поддержка инфраструктуры: Администрирование серверов команды, обеспечение отказоустойчивости и безопасности.
• Интеграция агентских систем: Участие в разработке, интеграции и деплое автономных агентных систем и LLM-приложений.
Что мы ожидаем:
• Опыт коммерческой администрирования Linux и управления производственными кластерами Kubernetes.
• Уверенное владение Helm (написание чартов, управление релизами).
• Продвинутый опыт построения и поддержки пайплайнов CI/CD (GitLab CI/CD или аналоги).
• Понимание принципов безопасности: опыт работы с Keycloak/OAuth2, управление секретами через Vault.
• Глубокие знания в области Observability: стек Prometheus/Grafana, OpenSearch.
• Навыки написания скриптов для автоматизации (Python, Bash).
Будет круто, если вы:
• Имеете опыт поддержки и администрирования Big Data-сервисов: Trino, Airflow, ClickHouse, Kafka, Hadoop, Redis.
• Разрабатывали внутренний тулинг и утилиты на Python.
• Сталкивались с задачей оптимизации работы GPU в Kubernetes (device plugins, мониторинг VRAM, планирование задач).
• Знаете принципы работы LLM и фреймворков для их обслуживания
писать в директ @maksimm2108
Навыки
Airflow
computer programming
Grafana
Hadoop
Hashicorp Vault
Java (computer programming)
Jenkins (tools for software configuration management)
Keycloak
LightLLM
manage ICT virtualisation environments
OAuth2
Opensearch
PostgreSQL
Prometheus
Python (computer programming)
Redis
Домены
AI
Fin-tech
ML
ИИ навыки
Apache Airflow
ClickHouse
computer programming
GPU Computing
Grafana
Hadoop
Hashicorp Vault
Java (computer programming)
Jenkins (tools for software configuration management)
Keycloak
LightLLM
manage ICT virtualisation environments
OAuth2
Opensearch
ИИ домены
AI Infrastructure
Big Data
Fin-tech
MLOps
SaaS
* Домены определены автоматически с помощью нейросети