Новый метод JECS очищает бенчмарки LLM от заражения данными, гарантируя честное сравнение моделей

Проблема заражения бенчмарков стала одной из центральных при оценке больших языковых моделей (LLM). Когда примеры из тестового набора попадают в обучающие данные одной или нескольких моделей, их результаты завышаются, а сравнение между разными LLM теряет достоверность. Существующие методы обнаружения заражения не имеют теоретических гарантий, а недавние «конформные» подходы работают только для одной модели — из-за этого бенчмарки становятся модельно-специфичными, что затрудняет объективное сравнение.

В новой работе, опубликованной на arXiv, исследователи формализовали проблему очистки бенчмарков от заражения как задачу совместного отбора данных для множества моделей. Они предложили процедуру Joint Envelope Conformal Selection (JECS), которая позволяет контролировать глобальный уровень заражения (Global Contamination Rate, GCR) с гарантированными статистическими свойствами.

Метод JECS работает следующим образом: для каждой модели вычисляются конформные p-значения, затем они агрегируются по максимуму для каждого элемента данных. Строится консервативная «оболочка» нулевого распределения максимума p-значений на основе наблюдений из правого хвоста выше порога, определяемого по данным. После этого применяется адаптивная процедура Бенджамини-Хохберга к преобразованным значениям, что позволяет выбрать бенчмарк с гарантированным контролем GCR.

Эксперименты на различных моделях и бенчмарках показали, что JECS обеспечивает более высокую мощность (способность выявлять заражённые элементы) по сравнению с базовым методом «max-p» и при этом стабильно удерживает целевой уровень GCR. Это означает, что разработчики и исследователи могут доверять результатам сравнения LLM после применения такой очистки.

Разработка JECS особенно актуальна в условиях быстрого роста числа открытых и проприетарных языковых моделей. Честное и доказуемое сравнение их способностей необходимо для адекватной оценки прогресса в области ИИ. Предложенный метод предоставляет математически обоснованный инструмент для построения «чистых» бенчмарков.