Mask-Proof: автоматический тест шагов математических доказательств для LLM
Оценка пошаговых математических рассуждений крупных языковых моделей (LLM) остаётся сложной задачей: существующие методы фокусируются на финальном ответе или требуют дорогостоящей экспертной проверки. Новая работа предлагает пайплайн Mask-Proof, который превращает реальные математические доказательства в автоматически проверяемые задания с маскировкой ключевых шагов.
Пайплайн маскирует центральную формулу или этап рассуждения, предоставляет контекст и просит модель восстановить пропущенное. Оценка выполняется специальным LLM-судьёй, использующим многократное голосование для стабильности. Разработчики утверждают, что такой подход позволяет надёжно и воспроизводимо измерять глубину понимания доказательств.
На основе пайплайна собран бенчмарк Mask-ProofBench, включающий 292 задачи из разных областей математики: от алгебры до топологии. Эксперименты с 17 моделями показали, что модели с усиленными рассуждениями (reasoning-enhanced) превосходят стандартные на 12-27%.
Автоматический оценщик достиг 96,8% согласия с экспертами-аннотаторами, что делает возможным масштабируемое тестирование без участия человека. Бенчмарк, аннотации и код опубликованы в открытом доступе на GitHub.
Результаты открывают путь к более надёжному применению LLM в научных доказательствах, где важна не только правильность финального ответа, но и корректность каждого промежуточного логического шага. По мнению разработчиков, это приближает создание доверенных ИИ-ассистентов для математиков и исследователей.


