DACA-GRPO: прирост точности до 36% в обучении диффузионных языковых моделей

Редакция RusNews 19-май, 13:10 Наука 1 Искусственный интеллект

Научная группа опубликовала в arXiv работу, посвящённую новому методу DACA-GRPO, который повышает эффективность обучения с подкреплением (RL) для диффузионных языковых моделей. Диффузионные модели, в отличие от авторегрессионных, генерируют текст путём последовательного «очищения» шума, но существующие RL-методы имеют два фундаментальных недостатка.

Первый — отсутствие временного распределения «кредита» между шагами денойзинга: все шаги считаются одинаково важными. Второй — систематическое смещение оценок правдоподобия, используемых для оптимизации политики. DACA-GRPO решает обе проблемы с помощью двух механизмов.

Первый механизм — Denoising Progress Scores (оценки прогресса денойзинга) — извлекает веса важности для каждого токена из промежуточных предсказаний без дополнительных вычислительных затрат. Второй — Stratified Masking Likelihood (стратифицированная маскированная оценка правдоподобия) — разбивает позиции токенов на страты, чтобы каждый токен предсказывался с большей частью последовательности в качестве контекста, снижая смещение среднего поля.

Метод разработан как лёгкое дополнение, которое можно встраивать в любой GRPO-совместимый тренажёр. Авторы протестировали DACA-GRPO поверх трёх базовых GRPO-методов на семи бенчмарках, охватывающих математические рассуждения, генерацию кода, удовлетворение ограничений и генерацию по JSON-схеме.

Результаты показали значительное улучшение: прирост точности до 5,6 процентного пункта на математических рассуждениях, до 7,4 п.п. на генерации кода, до 36,3 п.п. на задачах с ограничениями и до 5,9 п.п. на соблюдении JSON-схемы. Эти цифры свидетельствуют о том, что устранение временного смещения и коррекция оценки правдоподобия дают существенный выигрыш в самых разных сценариях.

DACA-GRPO может стать стандартным инструментом при обучении диффузионных языковых моделей, особенно в приложениях, где требуется строгое соблюдение форматов или работа с ограничениями. Исследование подчёркивает важность учёта структуры процесса денойзинга в RL, что ранее часто игнорировалось.

DACA-GRPO: прирост точности до 36% в обучении диффузионных языковых моделей

Разделы

Навигация

Теги

DACA-GRPO: прирост точности до 36% в обучении диффузионных языковых моделей

Читайте также

Разделы

Навигация

Теги