Новый метод кэширования ускоряет промышленные AI-пайплайны в 30 раз
Исследователи из индустриального AI-сообщества опубликовали работу, посвящённую ускорению работы агентов на основе больших языковых моделей (LLM) в промышленных задачах. Они представили бенчмарк AssetOpsBench (AOB), имитирующий реальные сценарии управления активами, где запросы требуют координации данных с датчиков, нарядов-заказов, прогнозов отказов и других источников.
В таких системах каждый запрос запускает цепочку шагов: поиск инструментов, планирование LLM, выполнение через протокол MCP и итоговое обобщение. Повторяющиеся операции создают избыточную нагрузку, что критично для latency-чувствительных процессов.
Авторы предложили два слоя оптимизации. Первый — временное семантическое кэширование, которое отслеживает актуальность результатов в зависимости от времени, актива и параметров датчиков. Второй — оптимизации MCP-пайплайна: кэширование поиска инструментов на диске и параллельное выполнение шагов с учётом зависимостей.
Тесты на AOB показали, что оптимизации MCP обеспечили ускорение в 1,67 раза и снижение медианной задержки примерно на 40%. Временное кэширование при попадании в кэш продемонстрировало медианное ускорение в 30,6 раза.
Исследователи также выявили ограничения чистого семантического кэширования для параметрически насыщенных промышленных запросов. Результаты подчёркивают, что выбор стратегии кэширования напрямую влияет на корректность оценки производительности в бенчмарках на базе MCP.
Работа доступна в архиве препринтов arXiv. Разработчики отмечают, что предложенные методы могут быть интегрированы в существующие промышленные системы, где критична скорость обработки комплексных запросов.


