Новый метод MAVIC улучшает следование инструкциям в мультиагентном обучении

Исследователи предложили новый подход к мультиагентному обучению с подкреплением (MARL), который решает проблему выполнения внешних инструкций без ущерба для долгосрочных задач. Метод получил название MAVIC — Macro-Action Value Correction for Instruction Compliance.

В реальных сценариях MARL часто сталкивается с необходимостью адаптироваться к внешним командам на естественном языке, которые могут прерывать текущее поведение и конфликтовать с долгосрочными целями. Однако стандартные методы, основанные на вознаграждении за выполнение инструкций, сталкиваются с фундаментальной проблемой: уравнения Беллмана связывают оценки ценности для разных контекстов инструкций, что приводит к несоответствиям при прерывании макродействий.

MAVIC решает эту проблему, исправляя целевые значения Беллмана на границах инструкций: он корректирует входящую цель инструкции и восстанавливает значение продолжения в рамках текущей цели. В отличие от формирования вознаграждения, MAVIC изменяет саму цель бутстрэппинга, обеспечивая согласованную оценку ценности при стохастическом переключении инструкций в рамках единой политики.

Авторы статьи представили теоретический анализ метода и его реализацию в виде актор-критик алгоритма. Эксперименты в кооперативных мультиагентных средах разной сложности показали, что MAVIC достигает высокой степени выполнения инструкций, сохраняя при этом производительность базовой задачи.

Разработка может найти применение в робототехнике, управлении дронами, логистике и других областях, где требуется гибкое взаимодействие с человеком. Публикация доступна на arXiv под номером 2605.12655.