Ученые нашли причину галлюцинаций у мультимодальных нейросетей и предложили решение

Мультимодальные большие языковые модели (MLLM) часто генерируют галлюцинации, когда сталкиваются с противоречием между текстовой подсказкой и визуальными данными. Новая научная работа, опубликованная на arXiv, проливает свет на внутренние механизмы этого явления.

Авторы провели анализ на уровне голов внимания с помощью метода path patching на пяти открытых MLLM. Они выявили две группы голов с противоположными ролями: одни вызывают галлюцинации, другие сопротивляются им. Оказалось, что эффекты первых распределены широко и имеют больший совокупный вес, тогда как эффекты вторых сосредоточены в небольшом числе высокозначимых голов.

Эксперименты с абляцией подтвердили, что такое распределение создает несбалансированную структуру маршрутизации внимания, смещающую генерацию в сторону ошибочной текстовой предпосылки. Это объясняет, почему визуальные доказательства не могут возобладать при генерации.

Основываясь на этом открытии, исследователи разработали метод MACI (Modality-conflict-Aware Causal Intervention). Он представляет собой условное вмешательство, которое подавляет причинно-идентифицированные головы-виновники только при обнаружении конфликта модальностей.

Тестирование на пяти MLLM показало, что MACI достигает наибольшего снижения галлюцинаций среди сравниваемых методов вмешательства на этапе вывода на бенчмарке MMMC. При этом сохраняется благоприятный компромисс между точностью и уменьшением числа ошибок.

Метод также продемонстрировал zero-shot перенос на тестовый набор SCI-SemanticConflict, что говорит о его обобщающей способности. Исследователи подчеркивают, что их работа открывает путь к более надежным мультимодальным моделям.

Полученные результаты важны для практического применения MLLM в задачах, требующих синхронизации текстовой и визуальной информации, например, в автономных системах или анализе изображений.