Frost Training ускоряет обучение LLM в задачах Cross-Entropy Games
На платформе arXiv опубликована работа, представляющая Frost Training — новый метод для улучшения оптимизации политики на основе Монте-Карло в широком классе задач, названных Cross-Entropy Games (игры с перекрестной энтропией). Эти задачи предполагают использование LLM в роли судьи (LLM-as-a-judge).
Ключевая идея метода заключается в использовании градиента функции вознаграждения в пространстве эмбеддингов. Ранее подобный градиент применялся в технике взлома (jailbreaking) Greedy Coordinate Gradient (GCG). Авторы работы впервые продемонстрировали, что этот сигнал можно эффективно использовать для обучения модели, а не только для атак.
Валидация метода проводилась с помощью GRPO-обучения (Group Relative Policy Optimization) на задаче восстановления правдоподобия (maximum-likelihood infilling). Frost Training улучшил способность модели генерировать выходные данные с высокими оценками: в режиме best-of-k модель достигала более высоких максимальных значений.
Помимо улучшения качества, метод показал прирост скорости обучения. Как сообщается в работе, Frost Training позволяет быстрее достигать высоких результатов по сравнению с традиционными подходами.
Разработка может быть полезна для задач, где LLM выступает в роли судьи (например, оценки качества текста, проверки фактов или ранжирования ответов). Использование градиента вознаграждения в пространстве эмбеддингов открывает новый взгляд на оптимизацию политик в области обучения с подкреплением.


