HPML повышает стабильность обучения множества агентов с помощью Hodge-проекции

Проблема нестабильности в многолетнем обучении (MARL) хорошо известна: обновления политики каждого агента меняют ландшафт оптимизации для остальных, что приводит к циклической динамике и медленной сходимости. Существующие подходы, такие как регуляризация, назначение кредитов и консенсусные методы, лишь частично решают эту проблему.

Новая работа на arxiv (2605.18809) предлагает принципиально иной путь — геометрический. Разработанный метод HPML (Hodge-Projected Multi-agent Learning) рассматривает совместное поле обновлений всех агентов как элемент пространства L? векторных полей и проецирует его на ближайший метрический градиентный поток с помощью Hodge-подобного разложения.

Проекция определяется вариационно и характеризуется уравнением Пуассона. Исследователи реализовали её двумя способами: на основе графов (через дискретный аналог) и с помощью амортизированных нейронных сетей, которые восстанавливают проекционное направление всего по нескольким семплам.

Теоретический анализ показывает, что проекционная динамика обладает функцией Ляпунова и даёт оценки разрыва равновесия с явным аддитивным членом, отвечающим за непотенциальную часть. Это математически обосновывает стабилизирующий эффект.

Контролируемые эксперименты подтвердили геометрический механизм работы. На бенчмарках CTDE (централизованное обучение с децентрализованным исполнением) использование HPML в качестве plug-in слоя в стандартных конвейерах MARL привело к повышению стабильности и нормализованной доходности.

Таким образом, HPML предлагает универсальный геометрический способ «выпрямления» поля обновлений, который может быть добавлен поверх существующих алгоритмов. Это открывает путь к более надёжному обучению в сложных мультиагентных средах.