Новый метод SGPO повышает точность математических рассуждений LLM на 2,2 п.п.

Исследователи представили новый подход к обучению больших языковых моделей (LLM) математическим рассуждениям — Strategy-Guided Policy Optimization (SGPO). Метод направлен на преодоление ограничений традиционной имитации решений-траекторий, при которой модель запоминает конкретные шаги, а не учится общим стратегиям решения задач.

В основе SGPO лежит извлечение структурированных описаний стратегий из ответов сильных моделей. Для каждой задачи формируются два варианта траектории: автономный и стратегически направляемый, что позволяет напрямую сравнивать поведение модели с подсказкой и без неё.

Авторы решают два ключевых вопроса: как дистиллировать стратегии и когда это делать. Для первого используется токен-уровневая KL-дивергенция (forward-KL), которая селективно переносит сдвиг распределения, вызванный стратегией, в модель без подсказки. Для второго — адаптивное взвешивание на уровне примеров: усиление направляющего сигнала, когда автономное исследование недостаточно, и ослабление по мере роста собственной компетенции модели.

Эксперименты проводились на четырёх математических бенчмарках с двумя семействами моделей. На Qwen2.5-7B-Instruct SGPO превзошёл все baseline-методы: SFT, on-policy RL и гибридные подходы. Средний прирост точности составил 2,2 процентных пункта относительно самого сильного baseline.

Анализ показал, что forward-KL даёт более избирательный дистилляционный сигнал по сравнению с прямой имитацией траекторий. Кроме того, стратегическая дистилляция демонстрирует комплементарный эффект с масштабированием базовой модели: чем сильнее исходная модель, тем больше пользы от SGPO.

Разработка открывает путь к более эффективному переносу навыков рассуждения от сильных моделей к слабым без затратного сбора больших объёмов данных. Вместо копирования ответов модель учится мыслить стратегически, что обеспечивает обобщение на новые задачи.

Полный текст исследования доступен на arXiv под номером 2606.24064.