Новый метод UCCI снижает затраты на запуск LLM на 31% без потери качества
Группа исследователей разработала метод UCCI (Uncertainty-Calibrated Cost-optimal Inference), который позволяет снизить затраты на выполнение запросов к большим языковым моделям (LLM) без существенной потери качества. Работа представлена в препринте на arXiv.
Идея заключается в каскадной маршрутизации: простые запросы обрабатывает маленькая (и дешёвая) модель, а сложные — большая. Однако на практике используемые confidence scores часто не откалиброваны, а пороги переключения приходится настраивать вручную для каждого набора данных.
UCCI решает эту проблему: на этапе калибровки с помощью изотонической регрессии каждому запросу назначается вероятность ошибки на основе неопределённости маржинальных токенов. Затем порог выбирается автоматически путём минимизации стоимости при заданном ограничении на ошибку.
Эффективность метода проверили на производственной нагрузке — 75 000 запросов для распознавания именованных сущностей. Использовались две инструктивные модели: на 4 млрд и 12 млрд параметров, развёрнутые на GPU H100.
Результаты: UCCI сократил стоимость инференса на 31% (доверительный интервал 95%: [27%, 35%]) при сохранении micro-F1 на уровне 0.91. При этом ожидаемая ошибка калибровки (ECE) снизилась с 0.12 до 0.03.
Авторы отмечают, что UCCI превзошёл альтернативные подходы: порог по энтропии, сплит-конформную маршрутизацию и обученный порог в стиле FrugalGPT. Все сравнения проводились на реальных выводах моделей с измерением задержки на H100, а не на симулированных данных.
Разработка особенно актуальна для компаний, которые массово эксплуатируют LLM: она позволяет существенно экономить ресурсы без ухудшения пользовательского опыта. Дальнейшие исследования могут быть направлены на адаптацию метода для других задач и архитектур.



