Junior Applied ML Engineer / Data Scientist
Nedvision.ai - резидент Сколково, МТК
Вилка з/п - от 100 тыс
Real Estate Investment Scoring
Формат: контракт или part-time
Ищем перспективного junior / junior+ специалиста, который хочет расти в области Applied ML Engineering: работать с реальными грязными данными, строить признаки и модели, доводить решения до практического использования и постепенно брать на себя больше ответственности.
Нам не нужен человек, который уже всё знает. Нам нужен человек, который любит работать с данными, хорошо знает базу, быстро учится, не боится неопределённости и хочет развиваться на живой продуктовой задаче в области инвестиционного скоринга недвижимости.
Чем предстоит заниматься
Работать с исходными данными по недвижимости: объявления, тексты, цены, геоданные, поведение продавцов, рыночная динамика.
Делать EDA: искать закономерности, проверять гипотезы, находить проблемы в данных.
Готовить признаки для ML-моделей: текстовые, табличные, временные, географические.
Помогать строить модели для оценки инвестиционной привлекательности объектов: рейтинг, справедливая цена, доходность, ликвидность.
Участвовать в проверке качества моделей: подбор метрик, validation, анализ ошибок, интерпретация результатов.
Разбираться в деградации качества по сегментам: районам, типам объектов, ценовым категориям, периодам.
Постепенно брать на себя более сложные задачи: от анализа и прототипов до самостоятельных решений по отдельным частям ML-пайплайна.
Помогать структурировать ML-процесс: описывать гипотезы, фиксировать результаты экспериментов, поддерживать воспроизводимость.
Что нужно уметь на старте
Python на уровне уверенной работы с данными: pandas, numpy, notebooks/scripts.
Базовый ML: classification, regression, train/test split, метрики качества, переобучение, leakage.
Базовая статистика: распределения, корреляции, проверка гипотез, доверительные интервалы.
SQL: выборки, join, group by, оконные функции будут плюсом.
Понимание feature engineering: как превращать сырые данные в признаки.
Умение аккуратно работать с грязными, неполными и шумными данными.
Способность объяснять свои выводы простым языком: что проверяли, что получилось, почему это важно.
Готовность разбираться в предметной области, задавать вопросы и доводить задачи до результата.
Будет плюсом
- Опыт с scikit-learn, CatBoost / LightGBM / XGBoost.
- Базовое понимание NLP: embeddings, sentence-transformers, признаки из текстов.
- Интерес к геоаналитике: координаты, расстояния, районы, POI, H3, PostGIS / GeoPandas.
- Опыт с Airflow / MLflow / experiment tracking.
- Опыт работы с marketplace / classifieds / real estate / fintech данными.
- Умение использовать AI coding tools для ускорения работы без потери качества.
Чему научим
- Работать с геоаналитикой в прикладных ML-задачах.
- Строить признаки для объектов недвижимости: локация, транспортная доступность, окружение, район, трафик, динамика рынка.
- Понимать домен недвижимости: цена, ликвидность, доходность, качество объявления, поведение продавца.
- Проверять ML-модели честно: time-based split, backtesting, out-of-time validation, анализ деградации по сегментам.
- Доводить ML-решения от гипотезы и прототипа до практического использования в продукте.
- Работать с задачами, где нет готового учебного ответа, а нужно думать, проверять и принимать обоснованные решения.
Что дадим
- Много практики на реальных данных и реальных бизнес-задачах.
- Возможность быстро расти в Applied ML Engineering.
- Доступ к сильной предметной задаче на стыке ML, недвижимости, геоаналитики и инвестиционного скоринга.
- Карт-бланш на обоснованные решения: если гипотеза, подход или инструмент хорошо аргументированы, их можно пробовать.
- Возможность брать на себя не только технические, но и смысловые и организационные задачи: формулировать гипотезы, структурировать эксперименты, предлагать улучшения процесса.
- Работу в формате контракта или part-time с понятными задачами и постепенным ростом ответственности.
Резюме: @svetulyaa
Навыки
Airflow
CatBoost
geopandas
H3
LightGBM
MLflow
NumPy
pandas
PostGIS
Python (computer programming)
scikit-learn
SQL
XGBoost
Домены
FinTech
Investment Scoring
Real estate
ИИ навыки
Airflow
CatBoost
Classification
confidence intervals
Correlation Analysis
Data Cleaning
Embeddings
Feature Engineering
geopandas
Hypothesis Testing
LightGBM
MLflow
Natural language processing
NumPy
ИИ домены
FinTech
Geospatial Analytics
Investment Scoring
Real estate
* Домены определены автоматически с помощью нейросети