Новый метод квантизации BDQ сокращает потери точности LLM до 1%

Пост-тренировочная квантизация широко применяется для сжатия и ускорения инференса больших языковых моделей (LLM). Основная сложность — выбросы (outliers) в активациях, которые значительно ухудшают качество модели при низкой точности, особенно в битовых разрядностях.

В новой работе, опубликованной на arXiv, исследователи проанализировали математическую связь между ошибкой квантизации и выбросами. Они ввели метрику Flatness, которая количественно оценивает распределение выбросов. На её основе была выведена теоретически оптимальная стратегия преобразования матриц.

Результатом стал метод Bidirectional Diagonal Quantization (BDQ). Он использует обучаемые диагональные операции для равномерного распределения выбросов по матричным измерениям. Это позволяет эффективно уменьшить их концентрацию и сохранить точность.

Эксперименты показали, что BDQ устанавливает новый стандарт квантизации. На модели LLaMA-3-8B при квантизации W4A4 падение точности составило менее 1%. В более сложном сценарии W2A4KV16, где квантизируются веса, активации и KV-кэш, BDQ на модели DeepSeek-R1-Distill-LLaMA-70B на 39,1% сократил разрыв с производительностью полноточной модели по сравнению с предыдущими методами.

Авторы отмечают, что BDQ эффективно решает проблему персистентных выбросов, которые оставались даже после предыдущих преобразований. Метод не требует полного переобучения и может применяться к уже обученным моделям.

Разработка открывает путь к более агрессивному сжатию LLM без существенной потери качества, что особенно важно для развёртывания на устройствах с ограниченными ресурсами.