Новый метод TeamTR повышает эффективность мультиагентных LLM на 7,1%

Команда исследователей представила новый метод дообучения мультиагентных LLM-систем, получивший название TeamTR. Разработка решает проблему снижения производительности при совместной работе нескольких моделей, вызванную сдвигом распределения контекста при последовательном обучении.

Как сообщается в публикации на arXiv, авторы выявили, что при последовательном обновлении параметров одного агента меняется контекст для других участников команды. При оценке на устаревших траекториях ошибка накапливается квадратично относительно числа агентов. Эту проблему назвали compounding occupancy shift.

TeamTR использует подход доверительных интервалов: после каждого обновления одного из агентов траектории пересчитываются, что позволяет избежать использования устаревших данных. Дополнительно вводится контроль дивергенции для каждого агента, что даёт строгие гарантии улучшения на каждом шаге.

Эксперименты показали, что TeamTR превосходит одноагентные и последовательные базовые методы в среднем на 7,1%. Метод также снижает регрессию координации и поддерживает замену компонентов по принципу plug-and-play. По данным авторов, это первый фреймворк, который даёт теоретически обоснованные нижние границы улучшения при дообучении мультиагентных систем.

Разработка опубликована с открытым исходным кодом на GitHub, что позволяет исследователям и разработчикам интегрировать метод в свои проекты. Новая техника может ускорить создание сложных многомодельных систем для задач рассуждения и принятия решений.