VeryTrace: фреймворк для верификации цепочек рассуждений ИИ и исправления ошибок
Многошаговые рассуждения с помощью цепочек мыслей (Chain-of-Thought) остаются уязвимыми: логические ошибки или галлюцинации на ранних шагах незаметно распространяются и приводят к уверенным, но неверным выводам. Группа исследователей представила VeryTrace — фреймворк для верификации и исправления таких трасс рассуждений.
VeryTrace работает в режиме zero-shot, без дополнительных примеров или дообучения. Он переводит естественно-языковые рассуждения в структурированное компилируемое представление с помощью специального предметно-ориентированного языка (DSL). Этот язык явно указывает зависимости между шагами, превращает количественные выражения в исполняемые вычисления и организует семантические выводы через схемы дедукции.
Проверка осуществляется гибридным верификатором: детерминированные проверки (корректность вычислений, разрешение зависимостей, соблюдение ограничений) сочетаются с целенаправленными аудитами большой языковой модели для оценок, которые невозможно формализовать. Это позволяет локализовать ошибки на уровне отдельных шагов и автоматически их исправить.
Эффективность VeryTrace проверили на трёх разнородных наборах данных: математические задачи турнира AIME 2025, планирование задач для роботов в бенчмарке LLM-BabyBench и задачи на родственные связи в CLUTRR. На всех датасетах фреймворк улучшил точность по сравнению с базовым zero-shot подходом на современных больших языковых моделях.
При этом VeryTrace не требует доменно-специфического обучения или контекстных примеров — он полагается только на формализацию трассы рассуждений и структурированную верификацию. По словам авторов, это демонстрирует, что формализованная проверка трасс достигает как точности, так и обобщаемости.
Разработка может быть полезна для приложений, где критична достоверность рассуждений ИИ: автоматическое решение задач, роботизированное планирование, системы поддержки принятия решений. Дальнейшие направления включают расширение DSL на другие типы рассуждений и интеграцию с инструментами формальной верификации.



