PowerOPD: стабилизация дистилляции LLM с приростом точности до 6% и ускорением на 59%

Группа исследователей представила новый подход к дистилляции больших языковых моделей (LLM) под названием PowerOPD. Работа, опубликованная на arXiv, решает фундаментальную проблему стандартного метода дистилляции «на политике» (on-policy distillation, OPD), связанную с неограниченной наградой log-ratio, вызывающей высокую дисперсию градиентов.

В стандартной OPD оценка обратного KL-дивергенции выполняется с помощью выборки токенов, генерируемых ученической моделью. Это даёт несмещённую оценку методом Монте-Карло, но на практике приводит к неэффективности выборки, нестабильной динамике генерации и значительному отставанию от точной дистилляции с полным словарём. Анализ показал, что корень проблем — в неограниченной награде log-ratio, которая создаёт градиенты с огромной дисперсией.

PowerOPD заменяет эту награду на семейство ограниченных, знакосогласованных наград, полученных с помощью преобразования Бокса-Кокса. Параметр alpha регулирует степень преобразования, а log-ratio является частным случаем при alpha стремящемся к нулю. Новая награда остаётся ограниченной по определению, что устраняет основную причину нестабильности.

Эксперименты проводились на шести бенчмарках математических рассуждений с использованием четырёх пар учитель-ученик на базе моделей Qwen3. PowerOPD продемонстрировал улучшение среднего показателя Avg@8 и Pass@8 по всем бенчмаркам: до +6.37 и +5.71 по сравнению с обычной OPD, до +3.01 и +3.54 по сравнению с методами постобработки, и до +2.59 и +8.90 по сравнению с точной дистилляцией по полному словарю.

Помимо точности, PowerOPD значительно повышает эффективность обучения. Время работы сократилось на 59.2%, а пиковое потребление GPU-памяти — на 23.1%. При этом большие значения alpha не только повышали точность, но и приводили к более коротким ответам, а нормы градиентов оставались более чем в 3000 раз меньше, чем у стандартной OPD.

Авторы отмечают, что предложенный метод не требует сложной настройки и легко интегрируется в существующие пайплайны дистилляции. Работа открывает путь к более стабильному и эффективному обучению LLM, особенно в задачах, где критична высокая точность генерации.