Новая система $E^3$-Agent снижает задержки в edge-AI на 65–73%

Ученые опубликовали статью, в которой описали новую систему управления ресурсами для периферийных (edge) развертываний генеративного ИИ. Она получила название $E^3$-Agent (Executable and Evolving Agent) и предназначена для решения проблем, связанных с неизвестной и нестационарной производительностью устройств.

Как отмечается в работе, при развертывании моделей на периферии часто возникают ситуации, когда производительность конкретного устройства для конкретной модели неизвестна заранее. Кроме того, она может меняться из-за семантических событий, фоновой нагрузки или выхода устройств из строя. Традиционные решения, настроенные под фиксированный режим, становятся негибкими и дорогими в обслуживании.

$E^3$-Agent разделяет архитектуру на два компонента: быстрый маршрутизатор, принимающий решения о диспетчеризации за миллисекунды, и медленный метаконтроллер на основе большой языковой модели (LLM), управляемый событиями. Метаконтроллер использует небольшой набор явных инструментов — например, оценку рисков, конфигурацию маршрутизатора и быструю калибровку производительности — для адаптации к изменениям среды.

Система обучается в реальном времени на основе обратной связи от выполнения задач и непрерывно подстраивается под неизвестные и изменяющиеся во времени отображения времени обслуживания. Это отличает её от статических решений, требующих повторной настройки при каждом изменении условий.

Оценка проводилась в дискретно-событийном симуляторе с использованием приоритетов измерений устройств и моделей из набора данных MLPerf. Эксперименты охватывали несколько сценариев: холодный старт, семантическую динамику, изменение состава устройств и скрытый дрейф. Во всех динамических сценариях $E^3$-Agent снизил среднюю задержку на 65–73% по сравнению с лучшим статическим базовым решением.

Кроме того, результаты оказались в пределах 7–10% от онлайн-оракла, имеющего полную информацию, а частота заиканий (стуттер-рейт) была эффективно подавлена при ухудшении семантического качества. Это указывает на способность системы сохранять стабильность работы в условиях деградации.

Предложенный подход может быть полезен для провайдеров edge-сервисов, стремящихся к автоматическому и экономному управлению ресурсами без постоянного вмешательства человека.