ИИ-пайплайн LLM-as-Judge для проверки экзаменов приблизился к точности учителей

Разработчики из индустриального партнёра совместно с учёными представили пайплайн LLM-as-Judge для автоматической проверки экзаменационных ответов. Система опирается на утверждённые учебные программы и официальные критерии оценивания, что отличает её от простых языковых моделей.

Пайплайн определяет темы, подтемы и когнитивные требования вопроса, после чего собирает верифицированный контекст из официальных документов. Затем LLM генерирует конкретные рубрики для задания, выводит критерии оценки и распределяет баллы по ответам учащихся.

Предварительные результаты показывают, что оценки, выставленные системой, сопоставимы с оценками преподавателей-людей. При этом пояснения ИИ более привязаны к официальным учебным материалам и стандартам, что делает процесс оценивания более прозрачным.

Пайплайн уже интегрирован в онлайн-платформу для подготовки к экзаменам. Ранние данные о внедрении дают представление о практическом использовании и частоте ручных корректировок.

Как отмечается в публикации на arXiv, разработка направлена на поддержку подготовки к высокоставочным экзаменам, например, при поступлении в университеты. Подход позволяет масштабировать проверку без потери качества, сохраняя соответствие образовательным стандартам.