Алгоритм CARL научился повторно использовать навыки в иерархическом обучении с подкреплением
Иерархическое обучение с подкреплением (HRL) обещает решать долгосрочные задачи эффективнее плоских аналогов за счёт поиска и повторного использования временно протяжённых навыков. Однако на практике получить по-настоящему повторно используемые навыки остаётся сложной задачей. Новый алгоритм CARL (Contrastive Action-based Representations for Reusable Local Control) предлагает решение, основанное на интуиции локальной динамики.
Идея в том, что локальные переходы в разных глобальных контекстах часто требуют похожих последовательностей действий. CARL выравнивает эти контексты с требуемыми действиями, что позволяет обучению определить, какие навыки использовать и где. Этот принцип может быть полезен для многих алгоритмов HRL, где верхнеуровневые политики должны обдумывать используемые низкоуровневые навыки.
В основе CARL лежит контрастивное обучение представлений действий. Модель учится сопоставлять локальные контексты с действиями, которые в них эффективны, создавая скрытое пространство, где похожие контексты находятся рядом. Это позволяет выявлять повторяющиеся паттерны поведения.
Эксперименты показали, что CARL способен качественно кластеризовать осмысленные навыки в сложных гуманоидных средах. Например, в симуляциях с человекоподобными роботами алгоритм выделил группы движений, соответствующие ходьбе, бегу или прыжкам, без явной разметки.
Кроме того, при интеграции с существующим алгоритмом HIQL (Hierarchical Implicit Q-Learning) CARL улучшил результаты на бенчмарке OGBench, который включает разнообразные задачи обучения с подкреплением. Это свидетельствует о практической применимости подхода.
CARL не требует полной перестройки имеющихся HRL-методов — он может быть добавлен как модуль для улучшения повторного использования навыков. Это делает его удобным инструментом для исследователей, работающих над долгосрочным планированием.
Дальнейшие работы могут быть направлены на масштабирование CARL до более сложных сред и интеграцию с другими алгоритмами. Публикация на arXiv позволяет ознакомиться с деталями метода и его результатами.



