Новый алгоритм STHTD-MP ускоряет обучение с подкреплением без политики

Исследователи представили новый алгоритм STHTD-MP (Behavior-Induced Mirror-Prox Temporal-Difference Learning), который ускоряет обучение с подкреплением в режиме off-policy. Работа опубликована на arXiv.

В обучении с подкреплением off-policy prediction позволяет агенту учиться на данных, собранных другой политикой. Ключевая проблема — обеспечить стабильную сходимость при линейной аппроксимации функций.

Существующие методы, такие как GTD2-MP, используют метрику ковариации признаков. Однако авторы STHTD-MP предлагают заменить её на симметричную часть Bellman-матрицы поведенческой политики. Это даёт более информативную геометрию обновлений.

Алгоритм использует один темп обучения для основных и вспомогательных переменных и применяет шаг предсказания-коррекции Mirror-Prox. Теоретический анализ показывает, что новое преобразование может уменьшить коэффициент сжатия ошибки по сравнению с GTD2-MP.

Эксперименты на эталонных задачах (двухсостояние, Random Walk, Boyan Chain) подтверждают улучшение сходимости. Исключение составляет Baird's counterexample, где строгие предположения не выполняются.

Метод STHTD-MP может найти применение в системах, где важна эффективность обучения на чужих данных, например, в робототехнике и рекомендательных системах.