QA Automation
AI QA Engineer LLM AI Agents Remote
ID: 29559
17 февраля 2026 г.
Активна
от 20 $
Формат работы
Удаленная работа
📄 Оригинальный текст вакансии
#удаленка #внеРФ #remote #vacancy
AI QA Engineer (LLM / AI Agents)
☝️Remote · вне РФ и РБ · разговорный английский
Уровень: Middle / Middle+
Тип: QA для LLM и AI-агентных систем
Часовой пояс: PT (7:00–16:00, Вашингтон)
Локация: вне РФ и РБ
Задачи:
- Тестирование поведения AI-агентов (диалоги, логика, контекст, состояние).
- Выявление и анализ галлюцинаций, отклонений от инструкций и логических ошибок.
- Разработка и поддержка тест-кейсов для LLM-агентов (manual + automation).
- Построение и поддержка eval-наборов (Golden Datasets) для регрессионного тестирования.
- Использование eval-фреймворков для оценки качества ответов LLM.
- Тестирование интеграций агентов с внешними системами (API, CRM, инструменты).
- Анализ качества ответов по метрикам: accuracy, coherence, relevance.
- Участие в развитии тестовой архитектуры для AI-систем.
Требования
- Опыт в QA (manual и/или automation) от 2 лет.
- Практический опыт тестирования AI-агентов или чат-ботов.
- Понимание принципов работы LLM-систем, AI-агентов и prompt engineering.
- Опыт работы с eval-инструментами
(OpenAI Evals, DeepEval, LangChain Evals или аналоги).
- Уверенный Python (написание автотестов и вспомогательных скриптов).
- Умение читать и анализировать код и конфигурации (JSON, логика агентов).
- Опыт работы с Git и системами баг-трекинга.
- Английский язык B2+ (рабочая коммуникация).
Будет плюсом:
- Опыт работы с LangChain, vapi, Synthflow или аналогичными платформами.
- Понимание CI/CD и базовых инструментов мониторинга.
- Опыт участия в проектировании тестовой архитектуры для AI/ML-систем.
- Опыт оценки LLM не только вручную, но и через метрики и автопроверки.
Мы предлагаем
-Полностью удалённый формат работы.
-Работу в сильной команде разработчиков, ML-инженеров и AI-специалистов.
-Возможность профессионально расти в QA для LLM- и AI-агентных систем.
-Оплату по квалификации — от 20 USD/час.
🌐 Языки
английский (B2 — Средне-продвинутый)
🛠 Навыки
DeepEval
LangChain
LangChain Evals
OpenAI Evals
Python (computer programming)
Synthflow
tools for software configuration management
Vapi
🎯 Домены
AI
ML
🤖 ИИ навыки
apply publicity code
conduct training on monitoring and evaluation frameworks
design application interfaces
develop ICT test suite
Document Management
Jenkins (tools for software configuration management)
levels of software testing
Manual Testing
monitor system performance
Open source model
principles of artificial intelligence
prompt performers
Python (computer programming)
quality assurance methodologies
tools for ICT test automation
tools for software configuration management
* Навыки определены автоматически с помощью нейросети
🤖 ИИ домены
AI Agents
AI systems
Artificial Intelligence
LLM systems
Machine Learning
Natural Language Processing
Software Development
Software quality control
Software Testing
* Домены определены автоматически с помощью нейросети
📢 Информация о публикации
🔗 Оригинальные посты (2)
Канал:qa_jobs