QA Automation

AI QA Engineer LLM AI Agents Remote

ID: 29559

17 февраля 2026 г.

Активна

от 20 $

Формат работы

Удаленная работа

📄 Оригинальный текст вакансии

#удаленка #внеРФ #remote #vacancy AI QA Engineer (LLM / AI Agents) ☝️Remote · вне РФ и РБ · разговорный английский Уровень: Middle / Middle+ Тип: QA для LLM и AI-агентных систем Часовой пояс: PT (7:00–16:00, Вашингтон) Локация: вне РФ и РБ Задачи: - Тестирование поведения AI-агентов (диалоги, логика, контекст, состояние). - Выявление и анализ галлюцинаций, отклонений от инструкций и логических ошибок. - Разработка и поддержка тест-кейсов для LLM-агентов (manual + automation). - Построение и поддержка eval-наборов (Golden Datasets) для регрессионного тестирования. - Использование eval-фреймворков для оценки качества ответов LLM. - Тестирование интеграций агентов с внешними системами (API, CRM, инструменты). - Анализ качества ответов по метрикам: accuracy, coherence, relevance. - Участие в развитии тестовой архитектуры для AI-систем. Требования - Опыт в QA (manual и/или automation) от 2 лет. - Практический опыт тестирования AI-агентов или чат-ботов. - Понимание принципов работы LLM-систем, AI-агентов и prompt engineering. - Опыт работы с eval-инструментами (OpenAI Evals, DeepEval, LangChain Evals или аналоги). - Уверенный Python (написание автотестов и вспомогательных скриптов). - Умение читать и анализировать код и конфигурации (JSON, логика агентов). - Опыт работы с Git и системами баг-трекинга. - Английский язык B2+ (рабочая коммуникация). Будет плюсом: - Опыт работы с LangChain, vapi, Synthflow или аналогичными платформами. - Понимание CI/CD и базовых инструментов мониторинга. - Опыт участия в проектировании тестовой архитектуры для AI/ML-систем. - Опыт оценки LLM не только вручную, но и через метрики и автопроверки. Мы предлагаем -Полностью удалённый формат работы. -Работу в сильной команде разработчиков, ML-инженеров и AI-специалистов. -Возможность профессионально расти в QA для LLM- и AI-агентных систем. -Оплату по квалификации — от 20 USD/час.

🌐 Языки

английский (B2 — Средне-продвинутый)

🛠 Навыки

DeepEval

LangChain

LangChain Evals

OpenAI Evals

Python (computer programming)

Synthflow

tools for software configuration management

Vapi

🎯 Домены

🤖 ИИ навыки

apply publicity code

conduct training on monitoring and evaluation frameworks

design application interfaces

develop ICT test suite

Document Management

Jenkins (tools for software configuration management)

levels of software testing

Manual Testing

monitor system performance

Open source model

principles of artificial intelligence

prompt performers

Python (computer programming)

quality assurance methodologies

tools for ICT test automation

tools for software configuration management

* Навыки определены автоматически с помощью нейросети

🤖 ИИ домены

AI Agents

AI systems

Artificial Intelligence

LLM systems

Machine Learning

Natural Language Processing

Software Development

Software quality control

Software Testing

* Домены определены автоматически с помощью нейросети

📢 Информация о публикации

🔗 Оригинальные посты (2)

https://t.me/qa_jobs/253582

https://t.me/qa_jobs/253581

Канал:qa_jobs