Ученые предложили метод оценки неуверенности LLM по скрытым состояниям
Большие языковые модели часто галлюцинируют с высокой уверенностью, что делает оценку неопределённости критически важной для их надёжного применения. Существующие методы в основном полагаются на сигналы на уровне токенов, но не используют геометрическую структуру промежуточных скрытых состояний.
В новой работе, опубликованной на arXiv, исследователи предложили рассматривать геометрическую сложность матриц скрытых состояний как меру глобальной неопределённости LLM, а оценку на уровне токенов — как локальную метрику.
Авторы показали, что геометрическая энтропия скрытых состояний (глобальная неопределённость) и токен-уровневая энтропия (локальная неопределённость) статистически почти ортогональны. Это означает, что они захватывают разные режимы сбоев для предсказания надёжности.
Особенно важно, что глобальная геометрия позволяет выявлять случаи уверенных, но ошибочных ответов — режим, который локальные сигналы систематически пропускают.
На основе этого открытия исследователи разработали метод Global-Local Uncertainty (GLU) — безнадзорный однопроходный показатель, который объединяет два сигнала через мультипликативный затвор. Метод не требует дополнительных вычислений и работает на разных архитектурах.
Эксперименты на трёх семействах моделей и шести бенчмарках показали, что GLU соответствует или превосходит все безнадзорные базовые методы, используя только один прямой проход и сохраняя нормализацию по длине.
Разработка может повысить надёжность LLM в реальных приложениях без дополнительных вычислительных затрат, что делает её практически ценной для развёртывания моделей в чувствительных областях.



