Senior DevOps Engineer (DWH/ML Platform)
Ищем DevOps-инженера, который не просто «держит прод», а строит масштабируемую платформу для работы с данными. Вам предстоит развивать инфраструктуру, на которой крутятся Trino, Spark и ML-модели, используя лучшие практики IaC и Kubernetes.
Технологический стек
Core Infra: AWS (EKS, VPC, IAM), Kubernetes, Terragrunt
CI/CD: GitLab CI
Compute & Query: Trino, Apache Spark
Storage: S3 (Data Lake, Apache Iceberg), ClickHouse, ScyllaDB
Orchestration: Apache Airflow (Kubernetes Executor)
Observability: Prometheus, Grafana, ELK
Deployment: Helm
Чем предстоит заниматься
Развитие Kubernetes-платформы (EKS)
Написание и поддержка сложных Helm-чартов для stateful-приложений (Trino, ClickHouse, Solr, ScyllaDB).
Управление ресурсами, автомасштабированием (HPA/VPA, Cluster Autoscaler, Karpenter).
Настройка сетевых политик, Ingress, service mesh при необходимости.
Infrastructure as Code
Полное описание инфраструктуры через Terragrunt: EKS-кластеры, VPC, IAM, S3, RDS и др.
Поддержка принципа DRY, управление стейтами в AWS S3.
Структурирование кода для нескольких окружений (dev/stage/prod).
CI/CD пайплайны
Построение процессов доставки кода и данных через GitLab CI.
Настройка GitLab Runners (в т.ч. на Kubernetes), кэширование артефактов.
Автоматизация тестирования инфраструктуры, Helm-чартов и Terraform-модулей.
Observability
Настройка сбора метрик через Prometheus (ServiceMonitors, PodMonitors, Exporters).
Визуализация в Grafana: дашборды для Data-компонентов и инфраструктуры.
Настройка алертинга для критичных сценариев: лаг репликации, очередь задач Spark/Airflow, утилизация ресурсов.
Централизованный сбор логов.
Data Ops
Поддержка кластеров Trino и Spark, обеспечение их взаимодействия с S3 (Iceberg) и базами данных (Solr, ScyllaDB).
Настройка Airflow на Kubernetes Executor, помощь DE-команде с инфраструктурными вопросами.
Участие в работе с инцидентами.
ML Support
Обеспечение стабильной работы сервисов ML (Solr, ScyllaDB, Redis) в продакшене.
Поддержка инфраструктуры для MLflow, Feast, inference-сервисов.
Что хотим видеть:
Если вы не работали с инструментами ниже, нам, к сожалению, будет сложно:
Kubernetes (Expert level): Вы не просто используете готовые манифесты, а понимаете внутренности EKS, умеете писать собственные Helm-чарты с нуля и дебажить сложные проблемы (OOMKilled, Pending pods, PVC issues, networking).
IaC: Умение структурировать код для нескольких окружений (dev/stage/prod).
GitLab CI: Глубокое понимание .gitlab-ci.yml, опыт настройки пайплайнов со сложной логикой.
AWS: Понимание сетевого взаимодействия и управления правами (IAM Policies/Roles, IRSA).
Опыт эксплуатации Big Data стека: например Trino (Presto), Spark, Airflow.
Опыт работы с колоночными NoSQL (ScyllaDB/Cassandra).
Опыт работы с поисковыми движками (Solr или Elasticsearch).
Понимание процессов MLOps и опыт с ML-инфраструктурой (MLflow, Feast, KServe).
Опыт с GitOps (ArgoCD, Flux).
Опыт работы с Apache Iceberg и Data Lake архитектурой.
@grenivetskiy
Навыки
Apache Airflow
Apache Iceberg
Apache Spark
ArgoCD
AWS
ClickHouse
Data Lake
ELK
Feast
FLUX
GitLab CI
Grafana
Helm
Kserve
Домены
Data Engineering
Machine Learning
MLOps
ИИ навыки
database management systems
Data Warehouse
digital identity management
embargo regulations
hydrography
manage ICT virtualisation environments
project configuration management
Spark
Web Services
* Навыки определены автоматически с помощью нейросети
ИИ домены
Big Data
Cloud Computing
Data Engineering
DevOps
Machine Learning
* Домены определены автоматически с помощью нейросети