Геометрия траекторий нейросети точнее softmax: новый метод калибровки неопределенности
Стандартный метод оценки неопределенности языковых моделей — максимум softmax-вероятности (MSP) — прост, но часто плохо откалиброван. Альтернативные подходы анализируют внутренние активации, но рассматривают их как статические снимки, игнорируя послойную динамику формирования представления.
Группа исследователей предложила новый способ: они проследили, как меняются скрытые состояния на каждом слое MLP, и извлекли 11 масштабно-инвариантных геометрических признаков. Эти признаки описывают накопление, усиление или ослабление доказательств по глубине сети.
Полученные векторы признаков подавались на вход разреженного линейного классификатора. В задаче селективного отказа от ответа (selective abstention) новый подход превзошел MSP, причем выигрыш рос с исходной степенью калибровочной ошибки — до 21 пункта по метрике AURC.
Каждый признак имеет замкнутую геометрическую интерпретацию, поэтому коэффициенты классификатора показывают, на каких слоях модель принимает преждевременные решения, где возникают противоречия и где траектория отклоняется от итогового ответа.
Метод обещает более надежную оценку уверенности в приложениях, где неопределенность критична: медицинская диагностика, юридический анализ, финансы. Разработчики отмечают, что техника не требует доступа к logits или probits, а использует только внутренние состояния модели.
Работа опубликована на arXiv и привлекла внимание специалистов по uncertainty quantification в NLP. В планах авторов — адаптация метода для моделей с неструктурированным выводом и тестирование на больших языковых моделях.


