Оптимизация LLM-агентов: новая модель балансирует задержку, надёжность и стоимость

Научная работа, опубликованная на платформе arXiv, посвящена фундаментальным компромиссам между задержкой, надёжностью и стоимостью в агентных системах, использующих большие языковые модели (LLM). Авторы вводят модели производительности как для LLM-агентов, так и для традиционных вычислительных модулей, описывая связь между вычислительными усилиями и качеством результатов.

Для LLM-агентов используется параметрическая экспоненциальная функция надёжности, учитывающая число токенов рассуждения и вывода. На основе этих моделей исследуется проектирование последовательных рабочих процессов при ограничениях на задержку и стоимость.

Ключевым результатом стала политика распределения токенов по принципу «water-filling» (заполнение водой) — аналогия с равномерным распределением ресурсов до достижения порога. Авторы также дают характеристику оптимальной надёжности рабочего процесса через так называемые «теневые цены» (shadow prices), которые показывают, как изменение ограничений влияет на итоговую надёжность.

Практическая значимость работы в том, что она предлагает инженерам и разработчикам инструмент для принятия решений при создании многокомпонентных AI-систем. Например, в сценариях, где критична быстрая реакция (чат-боты, ассистенты), можно пожертвовать частью надёжности для снижения задержки, а в финансовых или медицинских приложениях — наоборот.

Исследование опирается на формальные методы оптимизации и может быть расширено на более сложные топологии, включая параллельные и циклические графы. Оно также поднимает вопрос о том, как проектировать агентные системы, чтобы они оставались эффективными при масштабировании.

По данным авторов, предложенные модели и алгоритмы могут быть интегрированы в существующие фреймворки для оркестровки LLM-агентов, такие как LangChain или AutoGPT, помогая разработчикам автоматически выбирать конфигурацию под заданные ограничения.