Transcoders раскрывают механизмы галлюцинаций в мультимодальных нейросетях

Исследователи представили подход, который делает мультимодальные нейросети более прозрачными. В работе, опубликованной на arXiv, описывается применение Transcoders — разреженных аппроксимаций MLP-слоев — к модели Gemma 3-4B-IT. Этот метод позволяет разложить вычисления модели на интерпретируемые компоненты, связывающие фрагменты изображения с направлениями генерации токенов.

Традиционные Sparse Autoencoders (SAE) анализируют статические представления, но пропускают динамику взаимодействия модальностей. Transcoders, напротив, выступают как причинно-следственная прокси для вычислений на уровне слоёв, что даёт более полную картину.

Эксперименты показали, что атрибуции Transcoders оказывают более сильное и стабильное влияние на визуально обоснованные токены при удалении отдельных участков изображения, чем атрибуции SAE. Кроме того, они лучше согласуются с семантически значимыми регионами картинки.

С помощью контрфактического анализа False Visual Grounding авторы подтвердили, что восстановленные пути взаимодействия специфичны именно для пары зрение-язык, а не являются артефактами других компонентов модели.

Отдельно исследователи проанализировали структуру галлюцинаций — ложных визуальных утверждений. Для этого они извлекли графовые индикаторы из цепочек вычислений, полученных Transcoders. Обучив логистический классификатор на этих признаках, удалось предсказать галлюцинации с AUC 0,68.

Результаты показывают, что функционально-ориентированная декомпозиция цепей даёт интерпретируемые и прогностические описания мультимодальных вычислений в VLM. Это открывает путь к более надёжным и объяснимым системам ИИ, особенно в задачах, где критично понимание того, как модель использует визуальную информацию.