Новый метод SGPO повышает точность математических рассуждений LLM на 2,2 п.п.

Редакция RusNews 24-июн, 09:20 Наука 1 Искусственный интеллект

Исследователи представили новый подход к обучению больших языковых моделей (LLM) математическим рассуждениям — Strategy-Guided Policy Optimization (SGPO). Метод направлен на преодоление ограничений традиционной имитации решений-траекторий, при которой модель запоминает конкретные шаги, а не учится общим стратегиям решения задач.

В основе SGPO лежит извлечение структурированных описаний стратегий из ответов сильных моделей. Для каждой задачи формируются два варианта траектории: автономный и стратегически направляемый, что позволяет напрямую сравнивать поведение модели с подсказкой и без неё.

Авторы решают два ключевых вопроса: как дистиллировать стратегии и когда это делать. Для первого используется токен-уровневая KL-дивергенция (forward-KL), которая селективно переносит сдвиг распределения, вызванный стратегией, в модель без подсказки. Для второго — адаптивное взвешивание на уровне примеров: усиление направляющего сигнала, когда автономное исследование недостаточно, и ослабление по мере роста собственной компетенции модели.

Эксперименты проводились на четырёх математических бенчмарках с двумя семействами моделей. На Qwen2.5-7B-Instruct SGPO превзошёл все baseline-методы: SFT, on-policy RL и гибридные подходы. Средний прирост точности составил 2,2 процентных пункта относительно самого сильного baseline.

Анализ показал, что forward-KL даёт более избирательный дистилляционный сигнал по сравнению с прямой имитацией траекторий. Кроме того, стратегическая дистилляция демонстрирует комплементарный эффект с масштабированием базовой модели: чем сильнее исходная модель, тем больше пользы от SGPO.

Разработка открывает путь к более эффективному переносу навыков рассуждения от сильных моделей к слабым без затратного сбора больших объёмов данных. Вместо копирования ответов модель учится мыслить стратегически, что обеспечивает обобщение на новые задачи.

Полный текст исследования доступен на arXiv под номером 2606.24064.

Новый метод SGPO повышает точность математических рассуждений LLM на 2,2 п.п.

Разделы

Навигация

Теги

Новый метод SGPO повышает точность математических рассуждений LLM на 2,2 п.п.

Читайте также

Разделы

Навигация

Теги