Предсказуемое обучение GRPO: новая модель точна на 91%
Группа исследователей представила новую аналитическую модель, описывающую динамику обучения алгоритма Group Relative Policy Optimization (GRPO), используемого для улучшения рассуждений больших языковых моделей. Работа опубликована на arXiv и предлагает замкнутую форму предсказаний вместо традиционного эмпирического подбора параметров.
GRPO стал стандартным инструментом для повышения способности языковых моделей к логическим выводам. Однако до сих пор его обучение оставалось «чёрным ящиком»: траектории вознаграждения описывались эмпирическими функциями, а гиперпараметры подбирались методом проб и ошибок. Новая модель устраняет этот пробел, предлагая физически обоснованное описание.
Разработанная модель первого порядка сводит эмпирический закон экспоненциального насыщения к переувлажнённому пределу, вводя инерционный член, который объясняет фазу медленного старта. Ключевые предсказания теперь основаны на независимо измеряемых величинах, а не на подгоночных параметрах.
Среди предсказаний — инвариантность детерминированной траектории к размеру группы с флуктуациями, обратно пропорциональными размеру группы (1/G), резкий порог стабильности в интервале обновления и переход от переувлажнённого к колебательному режиму.
Эксперименты на трёх моделях и двух размерах групп подтвердили точность: замкнутая форма предсказывает траекторию обучения с коэффициентом детерминации R? не ниже 0,91. Предсказанная инвариантность к размеру группы подтверждена как на кривой вознаграждения, так и при переносе на восемь математических бенчмарков.
Кроме того, модель предлагает диагностику, различающую типы сбоев: reward hacking, вырождение преимущества, концентрацию политики и динамическую нестабильность. Ранее эти режимы было невозможно разделить только по кривой вознаграждения.
Для проверки предсказаний стабильности и колебаний авторы использовали упрощённую постановку с мягким максимумом, где допущение среднего поля выполняется точно. Воспроизведён предсказанный переход и найден порог стабильности на основе независимо измеренной жёсткости. Полномасштабное применение к глубоким сетям отложено.



