DiPOD: новый метод стабильного RL-дообучения диффузионных моделей

Диффузионные модели активно используются в генерации изображений, текста и управлении, но их дообучение с подкреплением (RL) часто оказывается нестабильным. Ученые выявили причину: так называемый двойной дрейф (double-drift), когда оптимизация вариационной нижней границы (ELBO) отрывается от истинного логарифмического правдоподобия, смещая градиент политики.

В новой работе на arXiv представлен метод DiPOD (Diffusion Policy Optimization without Drifting Apart). Он поддерживает tight-bound поведение на протяжении всего обучения, чередуя само-дистилляцию с обновлениями градиента, улучшающими политику. Это привело к простому практическому алгоритму: добавлению к каждому шагу градиента on-policy ELBO-регуляризатора.

Эксперименты на двух задачах — дообучение диффузионных языковых моделей и политики непрерывного управления — показали, что DiPOD существенно стабилизирует обучение и достигает более высоких наград по сравнению с предыдущими методами.

Работа решает ключевую проблему RL-post-training для диффузионных моделей, делая их более практичными для применения в диалоговых системах и робототехнике. Авторы подчеркивают, что метод легко интегрируется в существующие пайплайны.

Таким образом, DiPOD открывает путь к более надежному обучению диффузионных политик, что может ускорить внедрение таких моделей в реальные приложения.