VeryTrace: фреймворк для верификации цепочек рассуждений ИИ и исправления ошибок

Многошаговые рассуждения с помощью цепочек мыслей (Chain-of-Thought) остаются уязвимыми: логические ошибки или галлюцинации на ранних шагах незаметно распространяются и приводят к уверенным, но неверным выводам. Группа исследователей представила VeryTrace — фреймворк для верификации и исправления таких трасс рассуждений.

VeryTrace работает в режиме zero-shot, без дополнительных примеров или дообучения. Он переводит естественно-языковые рассуждения в структурированное компилируемое представление с помощью специального предметно-ориентированного языка (DSL). Этот язык явно указывает зависимости между шагами, превращает количественные выражения в исполняемые вычисления и организует семантические выводы через схемы дедукции.

Проверка осуществляется гибридным верификатором: детерминированные проверки (корректность вычислений, разрешение зависимостей, соблюдение ограничений) сочетаются с целенаправленными аудитами большой языковой модели для оценок, которые невозможно формализовать. Это позволяет локализовать ошибки на уровне отдельных шагов и автоматически их исправить.

Эффективность VeryTrace проверили на трёх разнородных наборах данных: математические задачи турнира AIME 2025, планирование задач для роботов в бенчмарке LLM-BabyBench и задачи на родственные связи в CLUTRR. На всех датасетах фреймворк улучшил точность по сравнению с базовым zero-shot подходом на современных больших языковых моделях.

При этом VeryTrace не требует доменно-специфического обучения или контекстных примеров — он полагается только на формализацию трассы рассуждений и структурированную верификацию. По словам авторов, это демонстрирует, что формализованная проверка трасс достигает как точности, так и обобщаемости.

Разработка может быть полезна для приложений, где критична достоверность рассуждений ИИ: автоматическое решение задач, роботизированное планирование, системы поддержки принятия решений. Дальнейшие направления включают расширение DSL на другие типы рассуждений и интеграцию с инструментами формальной верификации.