Термодинамический метод обнаружения галлюцинаций у языковых моделей

Исследователи из международной группы представили новый метод выявления галлюцинаций — ложных или непроверенных утверждений — в ответах больших языковых моделей (LLM). Работа опубликована на сервере препринтов arXiv.

Предложенный подход, названный Free-Energy Signatures (Fes), основан на анализе спектра графов внимания. Каждый слой LLM представляется как граф, где узлы — токены, а веса связей — коэффициенты внимания. По этому графу строится лапласиан, из которого извлекаются термодинамические характеристики: свободная энергия, спектральная энтропия, теплоемкость и другие.

Ключевое отличие метода — использование полной структуры спектра, а не только нескольких первых собственных значений. Авторы доказали математическую устойчивость Fes при малых возмущениях и показали, что дескриптор обогащает предыдущие спектральные методы.

Эксперименты на шести открытых LLM (семейства Llama, Mistral) и шести наборах тестов показали: линейный классификатор поверх Fes обеспечил среднее повышение AUROC на 6,5 процентных пункта по сравнению с LapEig и на 2,4 пункта по сравнению с GoR-4. Изменения самой модели не требуется — анализируются уже вычисленные матрицы внимания.

Полностью автоматический метод без размеченных данных, основанный на теории случайных матриц, достиг AUROC 0,71 — слабее, но позволяет работать без ручной разметки.

Дополнительный анализ показал: для корректных ответов распределение собственных значений ближе к распределению Вигнера-Дайсона, а для галлюцинаций — к пуассоновскому. Это открывает перспективы для понимания природы ошибок LLM.

Разработка может применяться в системах контроля качества чат-ботов и фактчекинге. Авторы опубликовали код и конфигурации в дополнительных материалах.