Структурная неопределённость: новый способ выявления ненадёжных рассуждений ИИ
Большие языковые модели часто приходят к одному и тому же ответу разными путями рассуждений — некоторые из них могут быть противоречивыми или трудно ранжируемыми. Эта проблема особенно заметна в многошаговых дедуктивных задачах. Существующие методы оценки надёжности в основном учитывают разброс ответов, игнорируя то, насколько модель последовательна в ранжировании конкурирующих вариантов.
В новой работе на arXiv учёные предложили концепцию структурной неопределённости. Она основана на стабильности ранжирования, выведенного из самопредпочтений модели. Для запроса генерируется несколько решений, после чего модель попарно сравнивает собственные ответы. На основе этих предпочтений с помощью модели Брэдли-Терри и алгоритма PageRank строится распределение ранжирований.
Авторы разложили сигнал на две энтропийные компоненты: межэкспериментальную нестабильность ранжирования и внутриэкспериментальную неоднозначность кандидатов. Тестирование на пяти моделях и восьми бенчмарках показало, что структурные сигналы дополняют информацию о разбросе ответов.
На задачах логического и математического рассуждений комбинация двух метрик повышает точность выявления ненадёжных примеров. В задачах фактологического поиска, напротив, структурный сигнал приближается к равномерному распределению — это указывает на границу применимости методов оценки непротиворечивости на уровне рассуждений.
Интересно, что две компоненты по-разному связаны с точностью. Внутриэкспериментальная неоднозначность коррелирует с правильностью ответов — в ситуациях, где несколько путей решения остаются конкурентоспособными. А межэкспериментальная нестабильность, наоборот, отрицательно связана с точностью, сигнализируя о ненадёжном рассуждении.
Авторы подчёркивают, что структурную неопределённость стоит рассматривать не как универсальный оцениватель уверенности, а как чувствительный к режиму индикатор логической непротиворечивости. Метод может быть полезен для отбора более надёжных ответов в прикладных системах ИИ.


