SVoT: новый метод RL повышает точность пространственных рассуждений MLLM на 65%

Редакция RusNews 11-июн, 13:06 Наука 1 Искусственный интеллект

Учёные разработали State-aware Visualization-of-Thought (SVoT) — новый подход для улучшения пространственного мышления в мультимодальных больших языковых моделях (MLLM). Метод использует обучение с подкреплением, чтобы генерировать промежуточные состояния и визуализации, поддающиеся проверке.

Как сообщается в статье на arXiv, ключевая проблема MLLM — надёжность при выполнении многошаговых пространственных рассуждений. Текущие модели часто оставляют промежуточные состояния непроверенными и обрабатывают переходы между состояниями неявно. SVoT решает это, встраивая цепочки переходных рассуждений в процесс генерации, что позволяет проверять пред- и постусловия действий через текстовую и визуальную информацию.

Обучение SVoT проводилось с помощью алгоритма GRPO (Group Relative Policy Optimization), где верификация реализована через дизайн наград. Исследователи оценили эффективность различных мелкозернистых поощрений.

Для тестирования были созданы пять доменов на основе классических сред, а также две новые — Pacman и Gather. Эти домены требуют взаимодействия с несколькими объектами и численных рассуждений, что позволяет систематически оценивать многошаговое пространственное мышление с количественной проверкой промежуточных состояний.

SVoT с учётом переходов показал наилучшие результаты во всех доменах, достигнув прироста точности до 65% на тестовых наборах вне распределения. Это существенный шаг вперёд для задач, где требуется надёжное понимание пространственных отношений и действий.

SVoT: новый метод RL повышает точность пространственных рассуждений MLLM на 65%

Разделы

Навигация

Теги

SVoT: новый метод RL повышает точность пространственных рассуждений MLLM на 65%

Читайте также

Разделы

Навигация

Теги