Семантическое сходство недостаточно: ученые ввели поведенческую неразличимость для дистилляции LLM

Группа исследователей опубликовала работу, в которой предложила новый критерий оценки качества дистилляции больших языковых моделей (LLM) — ограниченную поведенческую неразличимость. Традиционно успех дистилляции измеряли семантическим сходством ответов студента и учителя, однако авторы утверждают, что этого недостаточно.

В работе вводится формальное определение (?,q,t,A)-поведенческой неразличимости, где ? ограничивает преимущество различителя, q — число запросов к оракулу, t — вычислительные ресурсы, а A — класс противника. Этот подход позволяет оценить, насколько студент неотличим от учителя с точки зрения поведения, а не только содержания ответов.

Эксперименты проводились на парах моделей Qwen и Llama с использованием набора из 5000 промптов. Для каждой пары сравнивались базовый студент и студент, прошедший дистилляцию с помощью LoRA. LoRA повысила семантическое сходство с 0,788 до 0,862 для Qwen и с 0,814 до 0,874 для Llama.

Однако состязательное оценивание выявило остаточные поведенческие различия. Обученные дискриминаторы сохраняли ненулевое преимущество, а попарный категорийный анализ показал, что артефакты сосредоточены в промптах, связанных со стилем/форматом, робастностью и предметно-техническими темами. Специализированный противник, идентифицирующий учителя, подтвердил эту тенденцию.

При использовании Llama в качестве судьи из другого семейства и фильтрации согласованности A/B-переключения преимущество различителя для Qwen снизилось с 0,158 для базового студента до 0,081 после LoRA-дистилляции. Эксперименты с бюджетом запросов показали, что выборка, управляемая разногласиями, не всегда превосходит стратифицированную случайную выборку, что указывает на важность покрытия и разнообразия промптов.

Авторы делают вывод, что семантическая точность полезна, но недостаточна для оценки дистилляции LLM. Для черного ящика требуется ограниченное, состязательное и категорийное оценивание, учитывающее поведенческую неразличимость.