SVoT: новый метод RL повышает точность пространственных рассуждений MLLM на 65%
Учёные разработали State-aware Visualization-of-Thought (SVoT) — новый подход для улучшения пространственного мышления в мультимодальных больших языковых моделях (MLLM). Метод использует обучение с подкреплением, чтобы генерировать промежуточные состояния и визуализации, поддающиеся проверке.
Как сообщается в статье на arXiv, ключевая проблема MLLM — надёжность при выполнении многошаговых пространственных рассуждений. Текущие модели часто оставляют промежуточные состояния непроверенными и обрабатывают переходы между состояниями неявно. SVoT решает это, встраивая цепочки переходных рассуждений в процесс генерации, что позволяет проверять пред- и постусловия действий через текстовую и визуальную информацию.
Обучение SVoT проводилось с помощью алгоритма GRPO (Group Relative Policy Optimization), где верификация реализована через дизайн наград. Исследователи оценили эффективность различных мелкозернистых поощрений.
Для тестирования были созданы пять доменов на основе классических сред, а также две новые — Pacman и Gather. Эти домены требуют взаимодействия с несколькими объектами и численных рассуждений, что позволяет систематически оценивать многошаговое пространственное мышление с количественной проверкой промежуточных состояний.
SVoT с учётом переходов показал наилучшие результаты во всех доменах, достигнув прироста точности до 65% на тестовых наборах вне распределения. Это существенный шаг вперёд для задач, где требуется надёжное понимание пространственных отношений и действий.


