Новый метод RankQ улучшает offline-to-online обучение с подкреплением на 42%

Исследователи представили RankQ — новый подход к offline-to-online обучению с подкреплением (RL), который решает проблему неточной оценки Q-функции в больших пространствах состояний и действий. Традиционные методы накладывают пессимистические ограничения на невиданные действия, что может сдерживать улучшение политики. RankQ предлагает альтернативу: самообучаемый многочленный loss для ранжирования действий.

Вместо того чтобы равномерно штрафовать все невиданные действия, RankQ учится упорядочивать их по предпочтительности. Это направляет градиенты Q-функции в сторону более качественных действий, не привязываясь к субоптимальным действиям из датасета. Как отмечают авторы, метод сохраняет возможность улучшения политики после этапа offline.

На бенчмарках D4RL с разреженными наградами RankQ показал результаты, сравнимые или превосходящие семь существующих методов. Однако наиболее впечатляющие результаты получены в визуальном обучении роботов. В сценарии с малым объёмом данных (low-data regime) RankQ повысил успешность симуляции на 42,7% по сравнению со следующим лучшим методом.

В условиях большого объёма данных улучшение составило 13,7%. При этом RankQ продемонстрировал успешный перенос из симуляции в реальность (sim-to-real): успешность сборки кубиков на реальном роботе выросла с 43,1% (базовое качество предобученной модели VLA) до 84,7% после донастройки с помощью RankQ.

Разработчики отмечают, что RankQ эффективно донастраивает предобученные модели vision-language-action (VLA) даже при ограниченном количестве данных. Это открывает возможности для более быстрого обучения роботов новым задачам без необходимости масштабных датасетов.

Работа выполнена без привязки к конкретным компаниям; исходный код и детали эксперимента доступны в препринте на arXiv.