Ученые предложили метод оценки неуверенности LLM по скрытым состояниям

Большие языковые модели часто галлюцинируют с высокой уверенностью, что делает оценку неопределённости критически важной для их надёжного применения. Существующие методы в основном полагаются на сигналы на уровне токенов, но не используют геометрическую структуру промежуточных скрытых состояний.

В новой работе, опубликованной на arXiv, исследователи предложили рассматривать геометрическую сложность матриц скрытых состояний как меру глобальной неопределённости LLM, а оценку на уровне токенов — как локальную метрику.

Авторы показали, что геометрическая энтропия скрытых состояний (глобальная неопределённость) и токен-уровневая энтропия (локальная неопределённость) статистически почти ортогональны. Это означает, что они захватывают разные режимы сбоев для предсказания надёжности.

Особенно важно, что глобальная геометрия позволяет выявлять случаи уверенных, но ошибочных ответов — режим, который локальные сигналы систематически пропускают.

На основе этого открытия исследователи разработали метод Global-Local Uncertainty (GLU) — безнадзорный однопроходный показатель, который объединяет два сигнала через мультипликативный затвор. Метод не требует дополнительных вычислений и работает на разных архитектурах.

Эксперименты на трёх семействах моделей и шести бенчмарках показали, что GLU соответствует или превосходит все безнадзорные базовые методы, используя только один прямой проход и сохраняя нормализацию по длине.

Разработка может повысить надёжность LLM в реальных приложениях без дополнительных вычислительных затрат, что делает её практически ценной для развёртывания моделей в чувствительных областях.