GROW: как разбить траектории на срезы и обучить VLM-агента в Minecraft на SOTA
Разработка агентов на основе визуально-языковых моделей (VLM) для открытых миров часто требует многошагового взаимодействия. Однако стандартный алгоритм обучения с подкреплением GRPO (Group Relative Policy Optimization) неэффективен в таких сценариях: он использует полные траектории, что приводит к чрезмерно длинному контексту и шуму.
Команда исследователей предложила фреймворк GROW, который решает эту проблему. Вместо целых траекторий алгоритм разбивает их на отдельные сэмплы состояние-действие и вычисляет преимущество (advantage) между ними, а не для всей траектории. Авторы теоретически обосновали, что при упрощающих допущениях такой подход сохраняет ключевые свойства GRPO.
Ключевое преимущество GROW — возможность эффективно обучать VLM-агентов в многопользовательском режиме, где агент делает несколько шагов восприятия и действий. Разложение траекторий позволяет сократить длину контекста и снизить зашумление градиентов.
Эксперименты проводились на платформе Minecraft — классическом тестовом полигоне для открытых миров. В более чем 800 задачах, от простого сбора ресурсов до сложных рецептов крафта, GROW показал превосходные результаты, установив новый рекорд (SOTA) по сравнению с предыдущими методами.
Работа демонстрирует, что адаптация GRPO к задаче с неполными траекториями открывает путь к более эффективному обучению агентов в симуляциях реального мира. Авторы отмечают, что предложенный подход может быть применён не только в Minecraft, но и в других открытых средах, где требуется многошаговое планирование.
Детали алгоритма и полные результаты доступны в препринте на arXiv. Разработчики ожидают, что GROW станет основой для новых исследований в области обучения с подкреплением для VLM-агентов, работающих в сложных динамических средах.



