Data Engineer
Наш стек: СУБД PostgreSQL / ClickHouse, Python, Apache Airflow, GitHub, Docker, Kubernetes.
Основные задачи:
-Поддержка текущего функционала продукта.
-Расширение и развитие функционала действующего продукта.
-Анализ логов, данных, выстраивание логических цепочек, построение и проверка гипотез;
-Создание и поддержка новых дата-пайплайнов;
-Работа с Clickhouse. Написание и оптимизация средних/сложных SQL запросов;
-Анализ, подготовка и обработка данных;
-Обеспечение качества данных.
Предстоит поддерживать и развивать:
-Десктопное кроссплатформенное ПО (Java 17+, Swing);
-Монолитное ПО, включает в себя клиентскую и серверную части (взаимодействие посредством gRPC);
-Отсутствие фрэймворка, используются собственные наработки;
-Организация взаимодействия с БД (PostgreSQL, ClickHouse) посредством jdbc, без подключения дополнительных библиотек;
-Организация работ механизмов в многопоточном режиме с помощью ExecutorService, CompletableFuture;
-Покрытие кода тестами (Mockito, JUnit);
-Аналитические запросы и большие объёмы данных (~60 TB).
Для реализации задач тебе потребуется:
-Опыт работы в аналогичной роли от 3 лет
знание теории реляционных БД, понимание логической, физической моделей БД;
-опыт оптимизации сложных запросов;
-опыт поиска проблем в работающих под высокой нагрузкой системах.
-Опыт создания и поддержки ETL-процессов;
-Глубокий практический опыт разработки на Python (pandas, numpy);
-Опыт работы с Apache Airflow, самостоятельное создание DAG;
-Опыт работы с СУБД Clickhouse, написание средних/сложных и нетривиальных SQL-запросов;
-Умение самостоятельно брать задачи, по необходимости уточнять требования и доводить до финального результата;
-Навык поиска оптимальных решений: умение работать в условиях неопределенности, формулировать вопросы и предлагать решения.
Контакты:
talent@deeplay.io
Навыки
Apache Airflow
ClickHouse
CompletableFuture
ExecutorService
GitHub
gRPC
Java (computer programming)
JDBC
JUnit
manage ICT virtualisation environments
Mockito
pandas
PostgreSQL
Python (computer programming)
software components libraries
SQL
ИИ навыки
Apache Airflow
ClickHouse
CompletableFuture
ExecutorService
GitHub
gRPC
Java (computer programming)
JDBC
JUnit
manage ICT virtualisation environments
Mockito
pandas
PostgreSQL
Python (computer programming)
ИИ домены
Big Data
Data Engineering
* Домены определены автоматически с помощью нейросети