Ученые выяснили, почему LLM теряют нить разговора в длинных диалогах: внимание закрывается

Группа исследователей представила на arXiv механистическое объяснение того, как большие языковые модели (LLM) теряют нить разговора в многошаговых диалогах. Ранее это явление фиксировали на уровне поведения, но теперь удалось установить его внутреннюю причину — так называемое закрытие канала внимания.

Авторы предложили концепцию перехода каналов: токены, определяющие цель диалога, со временем становятся менее доступными для внимания модели, хотя информация о целях может сохраняться в остаточных представлениях. Для измерения этого эффекта разработан метрика — Goal Accessibility Ratio (GAR), которая оценивает внимание от генерируемых токенов к ключевым токенам задачи.

Эксперименты с различными архитектурами показали качественно разные сценарии отказа: некоторые модели сохраняют целевое поведение даже при обнулении внимания, другие терпят неудачу, несмотря на декодируемую остаточную информацию. Слой, в котором возникает кодирование цели, варьируется от 2 до 27 в разных моделях.

При принудительном закрытии канала внимания в модели Mistral точность запоминания 20 фактов упала с почти идеальной до 11%, а нарушения заданной личности превысили базовый уровень без внешнего давления. Этот эффект возникал на предсказуемом шаге перехода.

Линейные зонды смогли восстановить результаты запоминания из остаточных представлений с AUC до 0,99 для всех четырех основных архитектур, тогда как входные эмбеддинги показывали случайный уровень. Таким образом, разрыв между потерей внимания и остаточной декодируемостью предсказывает сохранение целевого поведения.

Работа предлагает инструмент GAR для диагностики, концепцию перехода каналов как управляемого механистического объяснения и параметрический прогноз времени сбоя при оконном закрытии внимания. Эти результаты могут помочь разработчикам создавать более устойчивые к длинным диалогам модели.