Новый алгоритм STHTD-MP ускоряет обучение с подкреплением без политики
Исследователи представили новый алгоритм STHTD-MP (Behavior-Induced Mirror-Prox Temporal-Difference Learning), который ускоряет обучение с подкреплением в режиме off-policy. Работа опубликована на arXiv.
В обучении с подкреплением off-policy prediction позволяет агенту учиться на данных, собранных другой политикой. Ключевая проблема — обеспечить стабильную сходимость при линейной аппроксимации функций.
Существующие методы, такие как GTD2-MP, используют метрику ковариации признаков. Однако авторы STHTD-MP предлагают заменить её на симметричную часть Bellman-матрицы поведенческой политики. Это даёт более информативную геометрию обновлений.
Алгоритм использует один темп обучения для основных и вспомогательных переменных и применяет шаг предсказания-коррекции Mirror-Prox. Теоретический анализ показывает, что новое преобразование может уменьшить коэффициент сжатия ошибки по сравнению с GTD2-MP.
Эксперименты на эталонных задачах (двухсостояние, Random Walk, Boyan Chain) подтверждают улучшение сходимости. Исключение составляет Baird's counterexample, где строгие предположения не выполняются.
Метод STHTD-MP может найти применение в системах, где важна эффективность обучения на чужих данных, например, в робототехнике и рекомендательных системах.


