RealMath-Eval: ИИ не умеет оценивать реальные школьные работы
Новый бенчмарк RealMath-Eval показал, что современные языковые модели, демонстрирующие почти идеальные результаты при решении школьных задач, не способны адекватно оценивать реальные работы учеников. Исследователи выявили значительный разрыв между точностью оценки синтетических и подлинных человеческих решений.
Бенчмарк включает 224 реальных экзаменационных ответа старшеклассников, которые были тщательно размечены экспертами. При оценке этих работ даже лучшие LLM-судьи показали высокую среднеквадратичную ошибку (MSE) около 2,96 по сравнению с экспертной оценкой.
В контрольном эксперименте те же модели оценивали синтетические решения, сгенерированные самими LLM. В этом случае ошибка составила всего 1,17 MSE. Этот феномен авторы назвали «оценочным разрывом» (Evaluation Gap).
Анализ семантических вложений показал, что синтетические ошибки имеют «структурный коллапс» — они лежат в предсказуемых низкоразмерных подпространствах. Напротив, ошибки в реальных работах образуют более разнообразное пространство. Кроме того, вероятностные зонды выявили, что человеческие рассуждения обладают значительно более высокой информационной избыточностью, то есть для моделей они менее характерны.
Авторы также проверили, может ли поверхностный перенос стиля (имитация почерка ученика) устранить разрыв, но это не помогло. Полученные данные свидетельствуют: текущие пайплайны оценки, основанные на синтетических данных, могут не отражать всего разнообразия настоящего математического мышления.
Результаты ставят под вопрос использование LLM для автоматической проверки работ в образовании без дополнительных механизмов адаптации к реальным паттернам ошибок учеников.


