Новый алгоритм IC-Q для децентрализованной координации LLM-агентов доказал сходимость
Международная группа исследователей опубликовала в arXiv работу, посвящённую обучению рабочих процессов в мультиагентных системах на основе больших языковых моделей (LLM). В ней формализована задача, когда специализированные агенты передают управление через общий артефакт, каждый видит только часть состояния, а централизованный доступ к совместным траекториям отсутствует. Это характерно для pipeline, пересекающих организационные или доверительные границы.
Для решения такой задачи авторы ввели понятие interface-constrained semi-Markov decision process (IC-SMDP) — полумарковского процесса принятия решений с ограничениями на интерфейс. Моменты принятия решений в нём совпадают с моментами передачи управления. На этой основе разработан алгоритм IC-Q — асинхронное децентрализованное Q-обучение, где координация между агентами на каждом шаге сводится к передаче одного скаляра.
Главный теоретический результат — конечная гарантия для нейросетевой версии IC-Q. Ошибка разложена на три независимо контролируемых источника: ошибка аппроксимации нейронной функции, разрыв представления интерфейса и остаточный член времени смешивания при случайной длительности опций. Доказательство потребовало расширения теоретического фреймворка approximate information state (AIS) с одноагентных MDP на мультиагентные SMDP и контроля марковского шума при случайной длительности — обе задачи не решались ранее.
По словам авторов, это первая конечная гарантия для нейронного Q-обучения в условиях децентрализованной частичной наблюдаемости. Эксперименты на четырёх задачах — контролируемый синтетический IC-SMDP, многомодельное математическое рассуждение, многомаршрутная маршрутизация и многопоточное программирование — показали, что IC-Q достигает результатов, сравнимых с централизованным оракулом, без наблюдения совместных траекторий. При этом каждый из трёх источников ошибки масштабируется вдоль своей оси в соответствии с предсказаниями теории.
Практическая значимость работы в том, что она открывает путь к построению надёжных мультиагентных систем LLM, работающих в защищённых средах, где обмен полной информацией невозможен или нежелателен. Алгоритм может найти применение в автоматизации бизнес-процессов, распределённых вычислениях и многокомпонентном ИИ.
Полный текст работы доступен в репозитории arXiv под идентификатором 2605.19140.


