Адаптивный выбор размера чанков действий: новый метод ACSAC улучшает обучение с подкреплением в долгосрочных задачах

В области обучения с подкреплением (reinforcement learning) долгосрочные задачи с редкими наградами остаются сложной проблемой. Традиционные одношаговые методы TD-learning накапливают ошибки при последовательных обновлениях. Одно из решений — использование чанков действий (action chunking), позволяющих работать с временно-протяжёнными действиями. Однако фиксированный размер чанков ограничивает гибкость: большие снижают реактивность, малые приводят к несогласованности движений.

Группа исследователей предложила подход Adaptive Chunk Size Actor-Critic (ACSAC), который адаптивно выбирает размер чанка в зависимости от состояния среды. В основе метода — критик на базе каузального трансформера, оценивающий ожидаемую доходность для чанков различной длины. На каждом шаге алгоритм выбирает размер, максимизирующий ожидаемый возврат, что исключает необходимость ручной настройки.

Авторы доказали математически, что оператор ACSAC является сжатием, а его неподвижная точка — функция ценности действия адаптивной политики. Эксперименты на бенчмарке OGBench показали, что ACSAC достигает наилучших результатов на задачах манипуляции с длинным горизонтом и редкими наградами, как в offline RL, так и в offline-to-online сценариях.

Новый метод особенно актуален для робототехники и задач последовательного принятия решений, где важны как точность движений, так и способность быстро реагировать на изменения. ACSAC автоматически балансирует между этими требованиями без дополнительного тюнинга.

Исследование опубликовано на arXiv и доступно для ознакомления. Разработка может найти применение в промышленных манипуляторах, автономных транспортных средствах и других системах, требующих долгосрочного планирования.