Ученые нашли способ сделать обучение PPO стабильнее — простым удалением 25% переходов

Редакция RusNews 26-май, 11:52 Наука 1 Искусственный интеллект

Группа исследователей опубликовала на arXiv препринт, в котором предложила неожиданно простой способ повысить стабильность обучения агентов в методе Proximal Policy Optimization (PPO). Оказалось, что достаточно случайным образом выбрасывать фиксированную долю переходов из собранных траекторий.

Проблема, которую решают авторы, связана с тем, что в on-policy алгоритмах, как PPO, каждый новый опыт собирается на текущей политике. Из-за последовательной природы данных переходы в ролл-ауте сильно коррелированы: каждый следующий шаг — это результат предыдущего. Это приводит к избыточной повторяемости градиентов, из-за чего сеть «зацикливается» на одних и тех же направлениях, а сеть ценности не успевает за изменениями политики. В итоге обучение может быть нестабильным, что не всегда видно по графикам наград.

Предложенное решение — случайное удаление определённой доли переходов из собранного ролл-аута. Авторы подчёркивают, что операция выполняется на правильном этапе (после сбора данных, но до расчёта преимуществ), чтобы не повредить сигнал вознаграждения. Никаких новых компонентов или изменений в ядро алгоритма не вносится — метод работает с любой реализацией PPO.

Эксперименты проводились на пяти средах разной сложности: CartPole-v1, Acrobot-v1, LunarLander-v2, HalfCheetah-v5 и Hopper-v5. Во всех случаях метод показал такую же финальную награду, как и стандартный PPO, но с более стабильной динамикой обучения — по KL-дивергенции, энтропии политики и оценкам ценности.

Оптимальным оказалось удаление 25% переходов. Этого достаточно, чтобы нарушить избыточную корреляцию, но не настолько много, чтобы обеднить выборку. По словам авторов, изменение минимально: всего один шаг выборки, без добавления сложности или увеличения времени обучения.

Результаты могут быть полезны практикам, использующим PPO в обучении с подкреплением, особенно в задачах с длинными эпизодами, где корреляция переходов особенно велика. Простота приёма позволяет легко встроить его в существующие пайплайны.

Ученые нашли способ сделать обучение PPO стабильнее — простым удалением 25% переходов

Разделы

Навигация

Теги

Ученые нашли способ сделать обучение PPO стабильнее — простым удалением 25% переходов

Читайте также

Разделы

Навигация

Теги