MGAP: новый метод борьбы с галлюцинациями в мультимодальных ИИ без дообучения
Группа исследователей представила метод MGAP (Manifold-Guided Adaptive Projection), направленный на снижение галлюцинаций в мультимодальных больших языковых моделях (MLLM). Работа опубликована на arXiv и описывает подход, не требующий дообучения модели.
Современные MLLM часто генерируют объекты, не соответствующие визуальному контексту. Обычно это связывают с чрезмерной опорой на языковые априорные знания, которые могут перевешивать визуальную информацию. Существующие методы декодирования без обучения пытаются подавлять эти априорные знания целиком, но такой подход не учитывает, что языковые априоры могут быть как полезными, так и вредными в зависимости от ситуации.
Авторы работы выявили, что слепое подавление всех языковых априоров нарушает семантическое многообразие модели — явление, названное Manifold Departure. Это приводит к ухудшению качества генерации. MGAP решает проблему, сохраняя структуру представлений модели.
Метод работает в два этапа. Сначала на основе «слепых» скрытых состояний (без визуальной информации) с помощью сингулярного разложения строится подпространство языковых априоров. Затем при декодировании каждое мультимодальное скрытое состояние проецируется на это подпространство, и специальный механизм адаптивно ослабляет только проекцию априорной компоненты, не затрагивая ортогональные семантические составляющие.
Эксперименты на тестах POPE и CHAIR показали, что MGAP превосходит предыдущие методы без обучения, обеспечивая более сильное подавление галлюцинаций без потери связности текста. Результаты подтверждают, что избирательное подавление языковых априоров эффективнее полного их отбрасывания.
Разработка MGAP — шаг к созданию более надёжных мультимодальных ИИ, которые точнее соотносят визуальную информацию и текстовое описание. Метод может быть интегрирован в существующие модели без затрат на дообучение, что упрощает его практическое применение.


