MoCA: новый RL-фреймворк улучшает восприятие и логику Vision-Language моделей
Разработчики Vision-Language моделей (VLM) часто сталкиваются с проблемой: когда модель ошибается, сложно определить, вызвана ли ошибка плохим восприятием изображения (bad seeing) или неверными логическими рассуждениями (bad thinking). Эта неоднозначность порождает так называемый эффект качелей (seesaw effect), при котором улучшение одного аспекта ведёт к ухудшению другого.
В новой работе, опубликованной на arXiv, группа исследователей предлагает решение — фреймворк MoCA (Modality-Aware Credit Assignment). Он использует подход reinforcement learning для раздельного поощрения восприятия и рассуждений. Ключевая идея: явно декомпозировать процесс генерации на чередующиеся шаги восприятия и логики, что позволяет назначать целевые награды за каждый этап.
Для оценки качества восприятия авторы ввели механизм Perception Verification (PV). Он использует прокси blindfolded reasoning — модель награждается за точность восприятия независимо от итогового логического вывода. Это позволяет избежать ситуации, когда правильный ответ, полученный благодаря случайному совпадению, поощряет слабое восприятие.
Ещё одна инновация — Structured Verbal Verification. Она заменяет нестабильную оценку с помощью LLM на структурированное алгоритмическое выполнение. Это делает обучение масштабируемым для широкого круга задач, не привязанных к жёсткому формату.
Все эти компоненты объединены в механизм Modality-Aware Credit Assignment. Он направляет награду на конкретный источник ошибки — либо на bad seeing, либо на bad thinking. Таким образом одна и та же модель может одновременно улучшать перцептивные и логические способности.
По данным исследования, применение MoCA позволяет Vision-Language моделям достигать прироста производительности на широком спектре задач без необходимости сложных внешних агентских архитектур. Это снижает вычислительные затраты и упрощает разработку.
Результаты демонстрируют, что правильное назначение кредита за восприятие — ключ к гармоничному развитию VLM. Работа открывает путь к более надёжным и интерпретируемым моделям, способным точно определять корень своих ошибок.


