On-policy distillation для LLM: когда метод работает, а когда даёт сбой — новое исследование
On-policy distillation (OPD) и его разновидность on-policy self-distillation (OPSD) считаются перспективными методами пост-тренировки больших языковых моделей. Они обеспечивают плотное токен-уровневое обучение на траекториях, сгенерированных самой моделью. Однако результаты их применения остаются противоречивыми: в одних сценариях методы показывают улучшение, в других — деградацию.
В новой работе, опубликованной на arXiv, исследователи провели масштабное эмпирическое исследование, чтобы выяснить, когда OPD и OPSD работают, когда терпят неудачу и почему. Оказалось, что OPD на задачах математического рассуждения крайне чувствителен к выбору учителя и формулировке функции потерь. OPSD, в свою очередь, оказался неэффективным в тестируемых условиях из-за отсутствия на этапе тестирования инстансно-специфичной привилегированной информации (PI).
Авторы выделили три ключевых механизма сбоя. Первый — несовпадение распределений учителя и студента, возникающее из-за обусловленности на префиксах, сгенерированных студентом. Второй — нестабильность оптимизации, вызванная смещёнными градиентами TopK обратного KL-дивергенции. Третий — специфическое для OPSD ограничение: студент учится политике без учёта PI, агрегируя учителей, обусловленных PI, что недостаточно, когда PI является инстансно-специфичной.
Для преодоления этих проблем исследователи предложили три решения: использование stop-gradient TopK-целей, адаптация учителей с помощью RLVR и стабилизация студентов через SFT. Эти методы позволяют значительно снизить нестабильность и улучшить результаты.
Работа вносит вклад в понимание механик дистилляции знаний и предлагает практические инструменты для повышения эффективности пост-тренировки больших языковых моделей, что особенно актуально для развития AI-систем.


