On-policy distillation для LLM: когда метод работает, а когда даёт сбой — новое исследование

Редакция RusNews 13-май, 10:44 Наука 1 Искусственный интеллект

On-policy distillation (OPD) и его разновидность on-policy self-distillation (OPSD) считаются перспективными методами пост-тренировки больших языковых моделей. Они обеспечивают плотное токен-уровневое обучение на траекториях, сгенерированных самой моделью. Однако результаты их применения остаются противоречивыми: в одних сценариях методы показывают улучшение, в других — деградацию.

В новой работе, опубликованной на arXiv, исследователи провели масштабное эмпирическое исследование, чтобы выяснить, когда OPD и OPSD работают, когда терпят неудачу и почему. Оказалось, что OPD на задачах математического рассуждения крайне чувствителен к выбору учителя и формулировке функции потерь. OPSD, в свою очередь, оказался неэффективным в тестируемых условиях из-за отсутствия на этапе тестирования инстансно-специфичной привилегированной информации (PI).

Авторы выделили три ключевых механизма сбоя. Первый — несовпадение распределений учителя и студента, возникающее из-за обусловленности на префиксах, сгенерированных студентом. Второй — нестабильность оптимизации, вызванная смещёнными градиентами TopK обратного KL-дивергенции. Третий — специфическое для OPSD ограничение: студент учится политике без учёта PI, агрегируя учителей, обусловленных PI, что недостаточно, когда PI является инстансно-специфичной.

Для преодоления этих проблем исследователи предложили три решения: использование stop-gradient TopK-целей, адаптация учителей с помощью RLVR и стабилизация студентов через SFT. Эти методы позволяют значительно снизить нестабильность и улучшить результаты.

Работа вносит вклад в понимание механик дистилляции знаний и предлагает практические инструменты для повышения эффективности пост-тренировки больших языковых моделей, что особенно актуально для развития AI-систем.

On-policy distillation для LLM: когда метод работает, а когда даёт сбой — новое исследование

Разделы

Навигация

Теги

On-policy distillation для LLM: когда метод работает, а когда даёт сбой — новое исследование

Читайте также

Разделы

Навигация

Теги