Определение галлюцинаций нейросетей: новый метод выбирает лучший слой без обучения

Проблема галлюцинаций больших языковых моделей (LLM) остаётся одной из ключевых в области генеративного ИИ. Такие ошибки, когда модель выдаёт правдоподобную, но неверную информацию, особенно опасны в системах вопросно-ответного типа и суммаризации. Для их обнаружения часто анализируют внутренние сигналы нейросети, но до сих пор не было универсального способа автоматически выбрать лучший слой для этого анализа.

В новой работе, опубликованной на arXiv, учёные изучили, как сигналы галлюцинаций распределяются по слоям LLM. Ранее было известно, что промежуточные слои содержат более сильные сигналы, чем последний, но ручной подбор слоя для каждой модели и задачи крайне трудоёмок. Авторы проверили несколько гипотез и соответствующих критериев автоматического выбора слоя, но ни один из них не показал стабильных результатов на всех архитектурах и бенчмарках.

Исследователи предложили новый критерий — FEPoID (First Effective Peak of Intrinsic Dimension). Он определяет первый эффективный пик внутренней размерности слоя, что позволяет автоматически найти оптимальный или близкий к оптимальному слой для детекции галлюцинаций. Метод не требует обучения (training-free) и добавляет ничтожные вычислительные затраты.

Помимо этого, авторы разработали простую стратегию усечения последовательности генерации, которая дополнительно усиливает сигналы галлюцинаций. В сочетании с FEPoID это существенно повышает общую точность детекции по сравнению с существующими базовыми методами.

Эксперименты проводились на нескольких архитектурах и задачах, включая вопросно-ответные системы и суммаризацию. Результаты показали, что FEPoID стабильно находит оптимальные слои и превосходит как простые критерии, так и существующие baseline-методы детекции галлюцинаций.

Код проекта опубликован в открытом доступе на GitHub. Это позволяет другим исследователям легко воспроизвести результаты и адаптировать метод под свои модели.