ИИ-агенты научились формализовать учебники по вычислительной математике — новая методика оценки выявила скрытые проблемы

Группа исследователей представила работу, в которой кодирующий ИИ-агент применили для формализации учебника Numerical Methods for Ordinary Differential Equations в системе Lean 4. Ранее подобные проекты ограничивались разделами математики, уже хорошо описанными в библиотеке mathlib, тогда как вычислительная математика оставалась почти не охваченной.

Традиционно успех формализации измеряют только тем, проходит ли код проверку ядром (kernel acceptance). Авторы работы сочли такой подход недостаточным и предложили новую трёхмерную систему оценки: семантическая корректность, степень повторного использования функций mathlib и анализ с помощью LLM в качестве судьи (LLM-as-judge).

Применив эту методику к собственной формализации, а также к результатам двух других систем — RepoProver и M2F, — исследователи обнаружили повторяющиеся проблемы. Среди них: неполные многочастные утверждения, добавление ослабляющих гипотез и неоправданные ограничения на параметры, которые компилятор не замечает.

Таким образом, опора только на проверку ядром существенно завышает качество формализации. Авторы подчёркивают, что будущие системы автоматической формализации нуждаются в более строгих и воспроизводимых критериях оценки.

Работа опубликована в архиве препринтов arXiv и уже привлекла внимание сообщества формальной верификации. Разработанная методология оценки может стать стандартом для дальнейших исследований в этой области.