Дискретные диффузионные модели учат грамматику раньше, чем частоту слов
Исследователи установили, что дискретные диффузионные модели при обучении языку следуют определенной иерархии. Они сначала осваивают грубую информацию о поддержке данных — например, грамматически верные предложения, а затем уже точные частотные характеристики.
Дискретные диффузионные модели становятся все более популярными для моделирования языка. Процесс обратной диффузии постепенно восстанавливает данные из шума, но до сих пор было неясно, как организовано обучение на разных этапах.
В статье на arXiv (2605.13999) доказывается, что на последних шагах денойзинга каждое изменение токена распадается на ведущий масштаб, определяющий, движется ли изменение к поддержке данных, и более тонкий коэффициент, отвечающий за частотные различия. Это разделение зависит от механизма диффузии: равномерная диффузия дает трихотомию (улучшающие, сохраняющие и ухудшающие валидность изменения), а маскирующая — сосредоточена на улучшении валидности.
Эксперименты на маскирующей языковой диффузионной модели и синтетических задачах с регулярными языками подтвердили предсказания. Поддержка локализуется раньше, чем частотное ранжирование, а контраст между равномерной и маскирующей диффузией соответствует теоретическому разделению скоростей.
Полученные результаты помогают понять, как дискретные диффузионные модели учатся, и могут привести к улучшению архитектур и методов обучения для языковых моделей. Таким образом, исследование показывает, что модель сначала схватывает общую структуру языка, а затем уточняет статистические детали.



