Метод R2R2 снижает переобучение в RL при интенсивном повторном использовании данных

В arXiv опубликована работа, посвященная борьбе с переобучением в обучении с подкреплением (RL) при нехватке данных. Исследователи предложили метод R2R2 (Robust Representation via Redundancy Reduction), который снижает избыточность представлений в рамках подхода Self-Predictive Learning (SPL).

Проблема возникает, когда алгоритмы RL вынуждены многократно использовать одни и те же данные (высокий коэффициент UTD — update-to-data). Это типично для реальной робототехники, где сбор новых данных дорог. Интенсивное повторное использование ведет к переобучению, что снижает эффективность обучения.

Авторы показали, что стандартная практика центрирования данных (zero-centering) конфликтует со спектральными свойствами SPL. Вместо этого они предложили нецентрированную целевую функцию, которая лучше сочетается с природой SPL.

Метод R2R2 был протестирован на базовых SPL-алгоритмах, таких как TD7. При коэффициенте UTD, равном 20, он улучшил производительность TD7 примерно на 22%. Дополнительно исследователи интегрировали R2R2 в современный алгоритм SimbaV2, который изначально не использовал SPL. Модифицированная версия SimbaV2-SPL с R2R2 установила новый рекорд на 11 задачах непрерывного управления.

Результаты подтверждают, что предложенный метод эффективно борется с переобучением и ортогонален предыдущим достижениям. Код доступен на GitHub.