Метод SBBT повышает надежность LLM: улучшение AUROC на 0.11 в сложной математике

Группа исследователей представила метод Sequential Bayesian Belief Tracking (SBBT), предназначенный для оценки надежности длинных логических рассуждений больших языковых моделей (LLM) до получения финального ответа. Работа опубликована на платформе arXiv.

SBBT использует префикс-безопасные наблюдения и рекурсивно обновляет двухсостояние убеждений, что позволяет отслеживать вероятность успеха на основе скалярных оценок, текстовых маркеров, само-верификаций и других структурных признаков.

Метод тестировался на наборах данных MATH-500, GSM8K, AIME 2025 и RIMO-N с использованием открытых моделей. Результаты показали, что калибровка и ранжирование ведут себя по-разному: использование только скалярных оценок улучшает Brier score, а существенный прирост AUROC требует структурно-зависимых наблюдений.

В самых сложных задачах по математике (hard math) применение структурных признаков дало прирост AUROC на 0.110 по сравнению с базовыми префикс-безопасными методами. Аудит с классификатором на одинаковых префиксах подтвердил положительный вклад текстовых маркеров в MATH-500 и сигналов само-верификации в RIMO-N.

Разработчики отмечают, что SBBT представляет собой калибровочно-ориентированный фреймворк онлайн-вывода, который четко разделяет режимы извлечения доказательств: скалярные оценки в основном улучшают качество вероятностей, тогда как структурные признаки повышают ранжирование лишь в случаях, когда сильные базовые префикс-безопасные методы уже не поглотили всю ранговую информацию.

Метод может быть полезен для задач, требующих надежной оценки надежности рассуждений до завершения ответа, например, в критических приложениях ИИ.