D-PACE: динамическая потеря ускоряет LLM без изменения архитектуры

Ускорение инференса больших языковых моделей (LLM) остается одной из ключевых задач для их практического применения. Спекулятивное декодирование — популярный подход, при котором компактный драфтер предлагает токены, а целевая модель параллельно их проверяет. Однако существующие методы обучения драфтеров используют фиксированные веса позиций, не учитывающие динамику процесса приемки токенов.

В новой работе, опубликованной на arXiv, предложен метод D-PACE (Dynamic Position-Aware Cross-Entropy). Он выводит позиционно-зависимые веса из дифференцируемой аппроксимации ожидаемой длины принятого блока. Это позволяет автоматически перенаправлять обучающий сигнал на те позиции, которые в текущий момент ограничивают приемку.

D-PACE представляет собой модификацию функции потерь для драфтеров, работающих в режиме параллельного предсказания блока токенов (как в DFlash). Метод не требует изменений в архитектуре драфтера или процедуре вывода, а лишь заменяет стандартную кросс-энтропию на динамически взвешенную версию.

Эксперименты проводились на шести бенчмарках с использованием моделей Qwen3-4B (две глубины драфтера), двух декодирующих температур и двух дополнительных целевых моделей. D-PACE превзошел базовые методы как по среднему приросту скорости (wall-clock speedup), так и по средней длине эмиттируемой последовательности. При этом дополнительная вычислительная нагрузка на этапе обучения составила всего 2,3%.

Как отмечают авторы, ключевое преимущество D-PACE — адаптивность: по мере улучшения драфтера веса автоматически смещаются к новым «узким» позициям. Это позволяет эффективно обучать более глубокие драфтеры и получать более длинные принимаемые блоки без усложнения архитектуры.

Разработка может найти применение в сервисах, где важна низкая задержка ответа LLM, например в чат-ботах, ассистентах кода или системах реального времени. Открытый код пока не опубликован, но детали метода доступны в препринте.