CaVe-VLM-CoT: новый RAG-фреймворк снижает галлюцинации у мультимодальных моделей
Группа исследователей разработала фреймворк CaVe-VLM-CoT, предназначенный для борьбы с галлюцинациями в Vision-Language моделях (VLM). Как отмечают авторы, существующие методы не обеспечивают пошагового цитирования и не возвращают ошибки верификации на этап поиска.
CaVe-VLM-CoT построен по принципу замкнутого контура, включающего пять модулей: Экстрактор (извлекает запросы), Поисковик (ищет релевантные данные), Решатель (формирует ответ), Вставщик цитат (добавляет ссылки на источники) и Верификатор (проверяет обоснованность утверждений). При обнаружении необоснованного утверждения Верификатор отправляет обратную связь Экстрактору для уточнённого повторного поиска.
Помимо этого, авторы предложили набор из 23 метрик, оценивающих качество поиска, точность пошаговых цитат и межмодальную обоснованность. Ключевая метрика — CaVeScore, объединяющая точность, полноту цитирования, атрибуцию и обоснованность.
Тестирование показало, что CaVe-VLM-CoT достигает 87,1% точности и 56,6% CaVeScore на датасете ScienceQA, а на MMMU (30 предметов) — 55,2% точности и 35,7% CaVeScore. Важно, что метод не требует дообучения или изменения архитектуры модели.
По данным источника, фреймворк может быть интегрирован в существующие VLM без модификации промптов. Это открывает путь к более надёжным мультимодальным системам в задачах, где важна фактологическая достоверность.



