Новый метод PCHI снижает излишнюю уверенность LLM в ошибках, не затрагивая верные ответы
Большие языковые модели (LLM) часто демонстрируют высокую уверенность в ответах, которые оказываются неверными. Стандартные методы калибровки снижают уверенность глобально, что может ухудшить и правильные ответы. Новая работа на arXiv предлагает более точный подход — Probe-Conditioned Head Intervention (PCHI).
PCHI работает на этапе вывода: специальный «зонд» заранее определяет, склонна ли модель к излишней уверенности в данном ответе. Если да, алгоритм выборочно ослабляет влияние определённых слоёв внимания, отвечающих за генерацию сигнала уверенности, не затрагивая остальные механизмы.
В тестах на модели Qwen3-4B-Instruct с решением задач OpenMathInstruct метод показал впечатляющие результаты. Доля неверных ответов, в которых модель была «уверена» (readout-token yes), сократилась на 82,2% — они перешли в состояние «не уверен» (no). При этом изначально правильные ответы с высокой уверенностью пострадали лишь в 5,1% случаев.
Средняя калибровочная ошибка (ECE) снизилась с 21,9% до 9,2% при совместной интервенции на нескольких токенах шаблона уверенности. Это означает, что модель стала гораздо точнее отражать собственную достоверность.
Эффект также проявился на модели Gemma3-4B, хотя интервенции на ранних этапах были слабее и зависели от выбора маски. Тем не менее, на уровне итогового токена уверенности (readout-token) улучшение оказалось устойчивым.
Исследователи подчёркивают, что PCHI частично разделяет два эффекта: подавление неоправданной уверенности и потерю оправданной. Это открывает путь к более безопасному использованию LLM в приложениях, где критически важна правдивая оценка собственных ошибок — например, в медицине или юриспруденции.
Метод не требует переобучения модели и работает с уже существующими LLM, что делает его практичным для внедрения.


