Исследователи выявили плато точности у LLM-роутеров и предлагают пути развития
Команда исследователей представила на arXiv препринт, в котором описала феномен плато маршрутизации (routing plateau) у систем выбора моделей больших языковых моделей (LLM-роутеры). Такие роутеры помогают сервисам LLM динамически подбирать модель под конкретный запрос, балансируя между качеством ответа и стоимостью.
Авторы провели масштабное тестирование 21 метода маршрутизации на пяти бенчмарках. Оказалось, что многие подходы, включая метод k-ближайших соседей, показывают очень близкие результаты. Точность всех методов сходится к узкому диапазону, который значительно уступает оракульному (теоретически идеальному) роутеру. Это явление и получило название плато.
По мнению ученых, корень проблемы в узком месте предсказуемости (predictability bottleneck). Современные роутеры в основном улавливают общие усредненные тенденции работы моделей, а не тонкие сигналы, зависящие от конкретного запроса. В результате они хорошо справляются с легкими вопросами, но терпят неудачу на сложных, требующих индивидуального решения.
Исследователи также выяснили, что можно преодолеть плато. Для этого необходимы более крупные обучающие наборы данных, более мощные кодировщики (encoders) и сквозная тонкая настройка (end-to-end fine-tuning) роутеров. Эти меры позволяют повысить точность маршрутизации.
Работа имеет практическое значение для разработчиков LLM-сервисов. Понимание причин плато и путей его преодоления может привести к созданию более эффективных роутеров, которые будут точнее выбирать модель для каждого запроса. Это снизит затраты и улучшит качество ответов для пользователей.
Препринт доступен на arXiv под номером 2606.07587. Авторы подчеркивают, что их выводы характеризуют общие ограничения текущих методов маршрутизации и дают конкретные направления для дальнейших исследований.


