Mask-Proof: автоматический тест шагов математических доказательств для LLM

Редакция RusNews 16-июн, 12:54 Наука 1 Искусственный интеллект

Оценка пошаговых математических рассуждений крупных языковых моделей (LLM) остаётся сложной задачей: существующие методы фокусируются на финальном ответе или требуют дорогостоящей экспертной проверки. Новая работа предлагает пайплайн Mask-Proof, который превращает реальные математические доказательства в автоматически проверяемые задания с маскировкой ключевых шагов.

Пайплайн маскирует центральную формулу или этап рассуждения, предоставляет контекст и просит модель восстановить пропущенное. Оценка выполняется специальным LLM-судьёй, использующим многократное голосование для стабильности. Разработчики утверждают, что такой подход позволяет надёжно и воспроизводимо измерять глубину понимания доказательств.

На основе пайплайна собран бенчмарк Mask-ProofBench, включающий 292 задачи из разных областей математики: от алгебры до топологии. Эксперименты с 17 моделями показали, что модели с усиленными рассуждениями (reasoning-enhanced) превосходят стандартные на 12-27%.

Автоматический оценщик достиг 96,8% согласия с экспертами-аннотаторами, что делает возможным масштабируемое тестирование без участия человека. Бенчмарк, аннотации и код опубликованы в открытом доступе на GitHub.

Результаты открывают путь к более надёжному применению LLM в научных доказательствах, где важна не только правильность финального ответа, но и корректность каждого промежуточного логического шага. По мнению разработчиков, это приближает создание доверенных ИИ-ассистентов для математиков и исследователей.

Mask-Proof: автоматический тест шагов математических доказательств для LLM

Разделы

Навигация

Теги

Mask-Proof: автоматический тест шагов математических доказательств для LLM

Читайте также

Разделы

Навигация

Теги