HPML повышает стабильность обучения множества агентов с помощью Hodge-проекции
Проблема нестабильности в многолетнем обучении (MARL) хорошо известна: обновления политики каждого агента меняют ландшафт оптимизации для остальных, что приводит к циклической динамике и медленной сходимости. Существующие подходы, такие как регуляризация, назначение кредитов и консенсусные методы, лишь частично решают эту проблему.
Новая работа на arxiv (2605.18809) предлагает принципиально иной путь — геометрический. Разработанный метод HPML (Hodge-Projected Multi-agent Learning) рассматривает совместное поле обновлений всех агентов как элемент пространства L? векторных полей и проецирует его на ближайший метрический градиентный поток с помощью Hodge-подобного разложения.
Проекция определяется вариационно и характеризуется уравнением Пуассона. Исследователи реализовали её двумя способами: на основе графов (через дискретный аналог) и с помощью амортизированных нейронных сетей, которые восстанавливают проекционное направление всего по нескольким семплам.
Теоретический анализ показывает, что проекционная динамика обладает функцией Ляпунова и даёт оценки разрыва равновесия с явным аддитивным членом, отвечающим за непотенциальную часть. Это математически обосновывает стабилизирующий эффект.
Контролируемые эксперименты подтвердили геометрический механизм работы. На бенчмарках CTDE (централизованное обучение с децентрализованным исполнением) использование HPML в качестве plug-in слоя в стандартных конвейерах MARL привело к повышению стабильности и нормализованной доходности.
Таким образом, HPML предлагает универсальный геометрический способ «выпрямления» поля обновлений, который может быть добавлен поверх существующих алгоритмов. Это открывает путь к более надёжному обучению в сложных мультиагентных средах.


