Новый метод CELEUS ускоряет оценку LLM на 60% с сохранением точности

Международная группа исследователей разработала фреймворк CELEUS (Certifiable framework for Efficient LLM evaluation), позволяющий существенно сократить затраты на оценку больших языковых моделей без потери статистической строгости. Препринт работы опубликован на arXiv.

Главная проблема оценки LLM — необходимость большого числа тестовых примеров, чтобы получить надёжные показатели производительности. Традиционные методы строят доверительные интервалы, но их многократное обновление может нарушать гарантии coverage — интервал, заявленный на 95%, на практике часто оказывается ненадёжным.

CELEUS решает эту проблему с помощью e-процессов, которые обеспечивают anytime-valid доверительные интервалы — они сохраняют заявленную вероятность покрытия даже при многократных проверках. Ключевые нововведения: неопределённо-управляемая выборка (выбираются наиболее информативные примеры) и аппроксимация на основе суррогатных моделей для неоценённых примеров.

Исследователи доказали, что предложенные сигналы остаются несмещёнными относительно оцениваемого показателя при условии прошлых данных, что позволяет строить статистически обоснованные интервалы. Комбинация двух компонентов снижает дисперсию оценки и ускоряет достижение заданной точности.

Эксперименты показали, что CELEUS достигает целевой точности, используя на 54–62% меньше тестовых примеров по сравнению с существующими подходами. При этом coverage остаётся anytime-valid — гарантированно соответствует заявленному уровню (например, 95%) на любом шаге.

Теоретический анализ также показал, что доверительные интервалы от CELEUS могут сужаться с околопараметрической скоростью (с точностью до логарифмических множителей). Кроме того, авторы исследовали оракульное правило оптимальной выборки, которое мотивирует эмпирический подход с учётом неопределённости.

Разработка может быть полезна разработчикам и тестировщикам LLM, позволяя быстрее получать надёжные оценки производительности моделей при ограниченных вычислительных ресурсах.