Новый метод Relay ускоряет диффузионные языковые модели на 32% без потери качества
Группа исследователей разработала метод Learned Relay Representations (Relay), который решает ключевую проблему маскированных диффузионных моделей (MDM). При последовательной генерации последовательностей MDM отбрасывают внутренние вычисления на маскированных позициях, вынуждая каждый следующий шаг пересчитывать ценные представления. Relay вводит дифференцируемый канал для передачи латентной информации между прямыми проходами, обучаемый с помощью усечённого обратного распространения во времени (BPTT).
Метод совместим с современными диффузионными языковыми моделями (DLM) и легко интегрируется с такими техниками, как блочная диффузия и кеширование KV. Авторы сначала обосновали выбор дизайна Relay на сложной задаче планирования на судоку, а затем применили его к Fast-dLLM v2 — одной из лучших DLM. Результаты показали, что Relay превосходит стандартную тонкую настройку с учителем на задачах кодирования, одновременно снижая задержку вывода на целых 32%.
Эксперименты подтвердили, что современные DLM могут быть явно обучены передаче латентной информации между шагами декодирования. Это позволяет продвинуть границу Парето между производительностью и задержкой. Авторы предоставили открытый код для воспроизведения результатов.
Разработка Relay открывает путь к более эффективным диффузионным моделям для обработки естественного языка и генерации кода. Снижение задержки без потери качества особенно важно для практических приложений, где требуется быстрый интерактивный отклик.


