DACA-GRPO: прирост точности до 36% в обучении диффузионных языковых моделей
Научная группа опубликовала в arXiv работу, посвящённую новому методу DACA-GRPO, который повышает эффективность обучения с подкреплением (RL) для диффузионных языковых моделей. Диффузионные модели, в отличие от авторегрессионных, генерируют текст путём последовательного «очищения» шума, но существующие RL-методы имеют два фундаментальных недостатка.
Первый — отсутствие временного распределения «кредита» между шагами денойзинга: все шаги считаются одинаково важными. Второй — систематическое смещение оценок правдоподобия, используемых для оптимизации политики. DACA-GRPO решает обе проблемы с помощью двух механизмов.
Первый механизм — Denoising Progress Scores (оценки прогресса денойзинга) — извлекает веса важности для каждого токена из промежуточных предсказаний без дополнительных вычислительных затрат. Второй — Stratified Masking Likelihood (стратифицированная маскированная оценка правдоподобия) — разбивает позиции токенов на страты, чтобы каждый токен предсказывался с большей частью последовательности в качестве контекста, снижая смещение среднего поля.
Метод разработан как лёгкое дополнение, которое можно встраивать в любой GRPO-совместимый тренажёр. Авторы протестировали DACA-GRPO поверх трёх базовых GRPO-методов на семи бенчмарках, охватывающих математические рассуждения, генерацию кода, удовлетворение ограничений и генерацию по JSON-схеме.
Результаты показали значительное улучшение: прирост точности до 5,6 процентного пункта на математических рассуждениях, до 7,4 п.п. на генерации кода, до 36,3 п.п. на задачах с ограничениями и до 5,9 п.п. на соблюдении JSON-схемы. Эти цифры свидетельствуют о том, что устранение временного смещения и коррекция оценки правдоподобия дают существенный выигрыш в самых разных сценариях.
DACA-GRPO может стать стандартным инструментом при обучении диффузионных языковых моделей, особенно в приложениях, где требуется строгое соблюдение форматов или работа с ограничениями. Исследование подчёркивает важность учёта структуры процесса денойзинга в RL, что ранее часто игнорировалось.


