Исследователи представили MOPD: новый метод обучения ИИ на успехах и ошибках

Группа исследователей представила новую технику пост-обучения больших языковых моделей (LLM), названную Multi-Rollout On-Policy Distillation (MOPD). Метод позволяет модели учиться не только на своих удачных ответах, но и на ошибках, что делает процесс обучения более информативным.

Традиционные подходы часто полагаются на редкие сигналы вознаграждения, которые указывают, верен ли ответ в целом, но не дают детальных подсказок на уровне отдельных шагов рассуждения. On-policy distillation (OPD) решает эту проблему, используя сгенерированные самой моделью траектории для более плотного контроля на уровне токенов. Однако существующие OPD-методы обрабатывают каждый вариант ответа независимо, игнорируя другие попытки для того же запроса.

MOPD вводит концепцию peer-conditioned distillation — учительский сигнал строится на основе целой группы попыток, сгенерированных студентом (обучаемой моделью). Успешные попытки служат положительным примером верных рассуждений, а неудачные — структурированными отрицательными примерами, показывающими, каких ошибок следует избегать.

В рамках исследования были изучены две конфигурации: позитивная имитация сверстников и контрастное обусловливание успех/неудача. Эксперименты на таких задачах, как соревновательное программирование, математические рассуждения, ответы на научные вопросы и использование инструментов, показали, что MOPD стабильно превосходит стандартные on-policy базовые методы.

Дополнительный анализ учительских сигналов показал, что смешанные контексты успеха и неудачи лучше согласуют оценки учителя с сигналами верификатора. Это означает, что модель получает более точную и адаптивную обратную связь, что и приводит к улучшению результатов.

Авторы делают вывод: эффективная on-policy дистилляция должна использовать многократные попытки модели и её поведение методом проб и ошибок, а не рассматривать каждый прогон изолированно. Разработка может быть полезна для создания более совершенных ИИ-систем, способных учиться на собственном опыте.