#python #vacancy #ai #ds
AI/NLP-разработчик для MVP корпоративной базы знаний
Мы ищем начинающего AI/NLP-разработчика или Python-разработчика с интересом к Data Science для участия в проекте по созданию MVP корпоративной базы знаний для промышленной компании
Проект подойдет кандидату, который хочет получить практический опыт в NLP, LLM, RAG, embeddings, vector databases и обработке документов на реальной бизнес-задаче.
Основные задачи
1. Загружать и обрабатывать корпоративные документы: PDF, DOCX, XLSX, текстовые файлы.
2. Настраивать извлечение текста, очистку, нормализацию и разбиение документов на смысловые фрагменты.
3. Создавать embeddings для текстовых фрагментов и сохранять их в векторное хранилище.
4. Настраивать семантический поиск по внутренним документам.
5. Собирать простой RAG-пайплайн: вопрос пользователя → поиск релевантных фрагментов → ответ с опорой на найденный контекст.
6. Тестировать качество ответов на типовых вопросах сотрудников.
7. Улучшать структуру данных: добавлять метаданные, названия документов, разделы, страницы, источники.
8. Документировать логику решения, чтобы проект можно было развивать дальше
Обязательно
• Базовое или уверенное владение Python.
• Понимание основ машинного обучения и обработки текстов.
• Опыт работы с текстовыми данными: очистка, разбиение, поиск, классификация или похожие задачи.
• Понимание, что такое embeddings и семантический поиск.
• Базовый опыт работы с Git.
• Готовность разбираться в LLM, RAG и векторных базах данных.
• Умение самостоятельно искать решения, читать документацию и доводить задачу до рабочего результата.
• Аккуратность в коде и документации.
Желательно
• Опыт с LangChain или LlamaIndex.
• Опыт с ChromaDB, FAISS, Qdrant или другой векторной базой.
• Опыт работы с OpenAI API, GigaChat, YandexGPT, LLaMA, Mistral или другими LLM.
• Опыт обработки PDF, DOCX, XLSX.
• Базовое понимание REST API.
• Опыт с Docker.
• Опыт учебных, pet-проектов или хакатонов по NLP/LLM/RAG.
Стек:
Python
LangChain
ChromaDB
LLM API
FastApi
Что будет плюсом
Преимуществом будет опыт:
• разработки pet-проектов на LLM/RAG;
• участия в хакатонах по AI/ML;
• создания чат-ботов или интеллектуальных ассистентов;
• обработки технической документации;
• работы с промышленными, инженерными или корпоративными данными;
• создания поиска по документам;
• работы с OCR и PDF;
• настройки простых API-сервисов;
• понимания, как оценивать качество ответов AI-системы;
• интереса к knowledge management и корпоративным AI-системам.
Что предлагает компания
• Участие в реальном AI-проекте для промышленной компании.
• Возможность собрать MVP корпоративной базы знаний с нуля.
• Практический опыт в RAG, LLM, embeddings, semantic search и обработке документов.
• Задачу, которую можно показать в портфолио без раскрытия конфиденциальных данных.
• Возможность работать с реальной бизнес-проблемой, а не абстрактным учебным примеромх
• Частичную занятость или проектный формат.
• Возможность свичнуться из другого направления
• Возможность дальнейшего сотрудничества при успешном результате.
Для связи: @melentev1801
Навыки
ChromaDB
design application interfaces
DOCX processing
FAISS
FastAPI
GigaChat
LangChain
Llama
manage ICT virtualisation environments
Mistral
optical character recognition software
PDF processing
Python (computer programming)
Qdrant
Домены
AI
Corporate AI systems
Document Processing
Knowledge management
LLM
NLP
RAG
Semantic Search
ИИ навыки
design application interfaces
Machine Learning
manage ICT virtualisation environments
Natural language processing
optical character recognition software
perform dimensionality reduction
Python (computer programming)
search databases
tools for software configuration management
use Swoogle
* Навыки определены автоматически с помощью нейросети
ИИ домены
Artificial Intelligence
Corporate AI systems
Data Science
Document Processing
Knowledge management
* Домены определены автоматически с помощью нейросети