SLARouter: алгоритм маршрутизации LLM сокращает затраты в 2,2 раза без потери качества

Расходы на инференс больших языковых моделей (LLM) стремительно растут из-за увеличения числа запросов и стоимости инфраструктуры. При этом пользователи ожидают высокого качества ответов, что в коммерческих сценариях закреплено в соглашениях об уровне обслуживания (SLA). Возникает противоречие между снижением затрат и соблюдением SLA.

В новой статье на arXiv представлен SLARouter — онлайн-алгоритм маршрутизации запросов, который решает эту задачу. В отличие от существующих подходов, SLARouter не требует полной обратной связи, офлайн-тренировки или настройки под каждый рабочий сценарий. Он использует разреженные, односторонние сигналы от пользователей, доступные в реальных производственных системах.

Алгоритм обеспечивает теоретические гарантии как по оптимальности затрат, так и по строгому соблюдению SLA. Эксперименты на широком спектре LLM-бенчмарков показали, что SLARouter удовлетворяет ограничениям SLA без необходимости перенастройки на каждый тест. При этом операционные расходы снижаются до 2,2 раза по сравнению с базовыми методами.

Особенность SLARouter — способность адаптироваться в режиме реального времени. Алгоритм учится распределять запросы между различными LLM так, чтобы минимизировать издержки, не нарушая SLA. Это особенно важно для сервисов с высокими требованиями к скорости и стоимости.

Разработка может быть полезна облачным провайдерам и компаниям, внедряющим LLM-решения. Поскольку SLARouter не требует ручного тюнинга, он упрощает эксплуатацию таких систем. В будущем авторы планируют расширить тестирование на более сложные сценарии с несколькими SLA-метриками.