Поведенчески-осознанные коррекции повышают стабильность off-policy обучения с подкреплением

Исследователи представили на arXiv новую работу, посвященную стабилизации off-policy temporal-difference (TD) обучения с линейной аппроксимацией функции ценности. Стандартные методы TDC и TDRC используют вспомогательную коррекцию ковариации, но авторы предлагают заменить ее на поведенчески-осознанную.

В основе нового подхода лежит замена вспомогательной матрицы C на поведенческую матрицу Беллмана A_?. Первый алгоритм, BA-TDC, напрямую использует эту замену, а второй, BA-TDRC, добавляет регуляризацию для более надежной работы.

Такой двухшаговый процесс позволяет разделить вклад поведенческой геометрии и регуляризации. Авторы провели линейный анализ и показали, что предложенные модификации сохраняют неподвижные точки и сходятся почти наверняка при условии устойчивости среднего по Гурвицу.

Эксперименты проводились на нескольких тестовых сценариях: двухсостояний контрпример, контрпример Бэрда, случайное блуждание и цепь Бояна. Результаты показали, что замена на поведенческую матрицу сама по себе может быть очень полезной в некоторых задачах, но для стабильной работы в сложных условиях необходима регуляризация.

Работа представляет интерес для специалистов по обучению с подкреплением, особенно в контексте использования нейронных сетей для аппроксимации ценности. Полный текст доступен на arXiv (ID: 2605.28855).