Предсказуемое обучение GRPO: новая модель точна на 91%

Редакция RusNews 01-июл, 09:49 Наука 1 Искусственный интеллект

Группа исследователей представила новую аналитическую модель, описывающую динамику обучения алгоритма Group Relative Policy Optimization (GRPO), используемого для улучшения рассуждений больших языковых моделей. Работа опубликована на arXiv и предлагает замкнутую форму предсказаний вместо традиционного эмпирического подбора параметров.

GRPO стал стандартным инструментом для повышения способности языковых моделей к логическим выводам. Однако до сих пор его обучение оставалось «чёрным ящиком»: траектории вознаграждения описывались эмпирическими функциями, а гиперпараметры подбирались методом проб и ошибок. Новая модель устраняет этот пробел, предлагая физически обоснованное описание.

Разработанная модель первого порядка сводит эмпирический закон экспоненциального насыщения к переувлажнённому пределу, вводя инерционный член, который объясняет фазу медленного старта. Ключевые предсказания теперь основаны на независимо измеряемых величинах, а не на подгоночных параметрах.

Среди предсказаний — инвариантность детерминированной траектории к размеру группы с флуктуациями, обратно пропорциональными размеру группы (1/G), резкий порог стабильности в интервале обновления и переход от переувлажнённого к колебательному режиму.

Эксперименты на трёх моделях и двух размерах групп подтвердили точность: замкнутая форма предсказывает траекторию обучения с коэффициентом детерминации R? не ниже 0,91. Предсказанная инвариантность к размеру группы подтверждена как на кривой вознаграждения, так и при переносе на восемь математических бенчмарков.

Кроме того, модель предлагает диагностику, различающую типы сбоев: reward hacking, вырождение преимущества, концентрацию политики и динамическую нестабильность. Ранее эти режимы было невозможно разделить только по кривой вознаграждения.

Для проверки предсказаний стабильности и колебаний авторы использовали упрощённую постановку с мягким максимумом, где допущение среднего поля выполняется точно. Воспроизведён предсказанный переход и найден порог стабильности на основе независимо измеренной жёсткости. Полномасштабное применение к глубоким сетям отложено.

Предсказуемое обучение GRPO: новая модель точна на 91%

Разделы

Навигация

Теги

Предсказуемое обучение GRPO: новая модель точна на 91%

Читайте также

Разделы

Навигация

Теги