FlowBank: новый метод оптимизации мультиагентных LLM-систем с предварительным вычислением и повторным использованием

Группа исследователей представила FlowBank — новый фреймворк для оптимизации многозадачных рабочих процессов в системах на основе больших языковых моделей (LLM). Работа опубликована на arXiv (ID: 2606.11290).

Существующие подходы к оптимизации агентных рабочих процессов имеют существенные недостатки. Задачно-уровневые методы тратят много вычислительных ресурсов на поиск одного универсального рабочего процесса, оставляя неиспользованными другие кандидаты. Запросно-уровневые методы синтезируют новый процесс для каждого запроса, что ведёт к высоким затратам на инференс.

Авторы проанализировали эти парадигмы и обнаружили, что они скорее дополняют друг друга, чем конкурируют. Рабочие процессы, найденные при офлайн-поиске, часто решают разные подмножества запросов, а многие запросы, обрабатываемые дорогим генеративным методом, уже решаются более дешёвыми предварительно вычисленными процессами.

FlowBank предлагает принципиально иной подход: вместо поиска одного лучшего процесса или генерации нового для каждого запроса система создаёт компактный банк повторно используемых, взаимодополняющих рабочих процессов и адаптивно выбирает между ними во время инференса. Фреймворк состоит из трёх этапов: Diversifying (генерация разнообразных кандидатов с покрытием редких запросов), Curating (сжатие пула кандидатов в компактный портфель с минимальной избыточностью) и Matching (назначение каждого запроса на процесс с наилучшей прогнозируемой полезностью).

На пяти бенчмарках FlowBank показал наивысший средний балл среди всех оцениваемых методов, оставаясь конкурентоспособным по стоимости. Относительное улучшение составило 4,26% по сравнению с лучшими автоматическими базовыми методами и 14,92% — по сравнению с ручными.

Разработка открывает новые возможности для создания более эффективных мультиагентных систем, особенно в сценариях, где важна балансировка между производительностью и вычислительными затратами. Результаты подтверждают, что предложенная стратегия «предварительное вычисление + повторное использование» может стать альтернативой существующим подходам.