INFRAMIND: новый подход к управлению мультиагентными LLM с учётом инфраструктуры

Команда исследователей разработала INFRAMIND — фреймворк для управления мультиагентными системами на основе больших языковых моделей (LLM), который впервые учитывает реальное состояние вычислительной инфраструктуры. Результаты работы опубликованы в репозитории arXiv.

Существующие методы оркестрации мультиагентных LLM, такие как ансамбли или обученные маршрутизаторы, выбирают модели и топологии только на основе задачи и характеристик моделей, игнорируя загруженность серверов. На разделяемых GPU-кластерах это приводит к неэффективному использованию ресурсов: популярные модели накапливают длинные очереди запросов, в то время как равноценные альтернативы простаивают.

INFRAMIND решает эту проблему на трёх уровнях. Планировщик, учитывая текущую загрузку системы и оставшийся бюджет, выбирает топологию и роли агентов: при перегрузке — упрощённые графы, при низкой нагрузке — более сложные. Исполнитель на каждом шаге анализирует глубину очередей, использование кэша KV и задержки ответов, чтобы решить, какую модель вызвать и насколько глубоко рассуждать. Бюджетно-ориентированный планировщик дополнительно переупорядочивает очереди каждой модели, обслуживая срочные запросы в первую очередь.

Архитектура представлена как иерархическая задача с ограничениями (constrained MDP) и решается сквозным обучением с подкреплением, что позволяет системе автоматически балансировать между качеством и задержкой.

На пяти эталонных тестах INFRAMIND показал прирост точности до 7,6 процентных пункта по сравнению с предыдущими методами при низкой нагрузке, одновременно снизив задержку в 7 раз. При высокой нагрузке фреймворк обеспечивает соблюдение соглашений об уровне обслуживания (SLO) в 99,9% случаев, в то время как все базовые методы падают ниже 50%.

Разработка особенно актуальна для дата-центров и облачных платформ, где множество пользователей одновременно обращаются к LLM, и эффективное распределение ресурсов критически влияет на производительность и стоимость.