Три метода обучения ИИ для рассуждений оказались одним — arXiv доказал идентичность

Группа исследователей представила на arXiv работу, которая пересматривает подходы к обучению языковых моделей рассуждениям. Согласно публикации, три широко используемых метода — GRPO, Dr. GRPO и DAPO — не являются принципиально разными техниками. Все они сводятся к одному и тому же математическому преобразованию, основанному на стандартном отклонении оценок ответов.

Идея заключается в том, что при обучении модель генерирует несколько вариантов ответа на один запрос, а автоматическая проверка оценивает каждый как правильный или неправильный. Стандартное отклонение этих оценок отражает степень разногласий: максимальное — при равном разделении, нулевое — при полном согласии. Три метода по-разному манипулируют этим показателем.

GRTO делит обновление параметров на стандартное отклонение, Dr. GRPO отказывается от деления, а DAPO исключает группы с нулевым отклонением. Однако авторы доказывают, что все три — это просто разные настройки одного регулятора. Для бинарных наград (правильно/неправильно) стандартное отклонение и есть размер обновления.

«Группа с разногласиями обучает сильнее, единогласная — не обучает вовсе», — поясняется в работе. Этот результат показывает, какие задачи требуют больше внимания и сколько попыток на них нужно тратить. Выводы подтверждены как на крупном наборе сложных задач Big-Math, так и в контролируемом тренировочном прогоне.

Таким образом, то, что раньше считалось разными «фиксами», на самом деле является одним диалом, определяющим, где и насколько сильно происходит обучение. Исследование упрощает понимание процесса и может помочь в выборе оптимальных параметров для тренировки ИИ.