Новая система $E^3$-Agent снижает задержки в edge-AI на 65–73%
Ученые опубликовали статью, в которой описали новую систему управления ресурсами для периферийных (edge) развертываний генеративного ИИ. Она получила название $E^3$-Agent (Executable and Evolving Agent) и предназначена для решения проблем, связанных с неизвестной и нестационарной производительностью устройств.
Как отмечается в работе, при развертывании моделей на периферии часто возникают ситуации, когда производительность конкретного устройства для конкретной модели неизвестна заранее. Кроме того, она может меняться из-за семантических событий, фоновой нагрузки или выхода устройств из строя. Традиционные решения, настроенные под фиксированный режим, становятся негибкими и дорогими в обслуживании.
$E^3$-Agent разделяет архитектуру на два компонента: быстрый маршрутизатор, принимающий решения о диспетчеризации за миллисекунды, и медленный метаконтроллер на основе большой языковой модели (LLM), управляемый событиями. Метаконтроллер использует небольшой набор явных инструментов — например, оценку рисков, конфигурацию маршрутизатора и быструю калибровку производительности — для адаптации к изменениям среды.
Система обучается в реальном времени на основе обратной связи от выполнения задач и непрерывно подстраивается под неизвестные и изменяющиеся во времени отображения времени обслуживания. Это отличает её от статических решений, требующих повторной настройки при каждом изменении условий.
Оценка проводилась в дискретно-событийном симуляторе с использованием приоритетов измерений устройств и моделей из набора данных MLPerf. Эксперименты охватывали несколько сценариев: холодный старт, семантическую динамику, изменение состава устройств и скрытый дрейф. Во всех динамических сценариях $E^3$-Agent снизил среднюю задержку на 65–73% по сравнению с лучшим статическим базовым решением.
Кроме того, результаты оказались в пределах 7–10% от онлайн-оракла, имеющего полную информацию, а частота заиканий (стуттер-рейт) была эффективно подавлена при ухудшении семантического качества. Это указывает на способность системы сохранять стабильность работы в условиях деградации.
Предложенный подход может быть полезен для провайдеров edge-сервисов, стремящихся к автоматическому и экономному управлению ресурсами без постоянного вмешательства человека.





