Новый метод MARL с консенсусом координирует тысячи агентов при глобальных ограничениях
Многолетнее обучение с подкреплением (MARL) сталкивается с двумя основными проблемами: необходимостью соблюдения глобальных ограничений и масштабированием до большого числа агентов. Статья, опубликованная на arXiv (2605.30461), предлагает решение, объединяющее state-augmented обучение политик с распределенным консенсусом по двойственным переменным.
В предлагаемом подходе каждый агент обучает одну политику, которая зависит от его локального состояния и двойственной переменной, кодирующей обратную связь по ограничениям. Во время выполнения агенты согласовывают эту переменную через локальный обмен данными. Доказано, что при слабых предположениях о связности ошибка консенсуса между множителями ограничена, что приводит к ограниченному нарушению глобальных ограничений.
Ключевое преимущество метода — линейная масштабируемость в обучении и выполнении, в отличие от централизованного обучения с децентрализованным выполнением (CTDE), сложность которого растёт как минимум квадратично. Это позволяет методу работать с тысячами агентов, тогда как CTDE-базисы ограничены десятками.
Эксперименты в сценарии управления спросом на электроэнергию (smart grid) показали, что без консенсуса агенты не могут удовлетворить ограничения сети — они лишь бесконечно откладывают спрос, что является вырожденным решением. С консенсусом же агенты сходятся к общей двойственной переменной и одновременно соблюдают ограничения сети и удовлетворяют спрос.
Разработанный подход важен для систем с разделяемыми динамиками, где требуется координация при глобальных ресурсных ограничениях — например, в энергетике, транспорте, логистике или управлении робототехническими группами. Он сочетает масштабируемость независимого обучения с гарантиями выполнения ограничений за счёт лёгкого консенсуса.


