Новый метод Mesh-RL ускоряет обучение с подкреплением через декомпозицию пространства

Группа исследователей опубликовала препринт, в котором предложила Mesh-RL — новый подход к обучению с подкреплением, основанный на декомпозиции пространства. Метод решает проблему медленного распространения информации о ценности в средах с большим пространством состояний или разреженной наградой.

Mesh-RL разбивает среду на перекрывающиеся подсетки, аналогично сеткам в методе конечных элементов. В каждой подсетке выполняются локальные обновления временной разности (TD), но согласование на границах обеспечивает глобально когерентное распространение ценности. Это ускоряет процесс, не требуя модификации функции награды, оператора Беллмана или введения явного планирования.

Авторы протестировали Mesh-RL на сеточных средах с препятствиями и различными геометриями. В экспериментах с Q-learning, SARSA и Dyna-Q фреймворк стабильно улучшал скорость сходимости, суммарную награду и устойчивость обучения. Более высокая разрешающая способность сетки помогала поддерживать исследовательскую активность и предотвращала преждевременную сходимость.

Даже Dyna-Q, который уже использует внутреннее планирование, получил дополнительный прирост производительности при структурированной декомпозиции. Mesh-RQ привносит принципиальный механизм декомпозиции пространства, вдохновлённый методами граничного согласования из научных вычислений.

Исследователи отмечают, что фреймворк может быть особенно полезен в задачах, где традиционные методы страдают от медленного распространения вознаграждения. Исходный код будет опубликован позже.