InfoQuant: новый метод квантования LLM сохраняет 97% точности при 4-битных вычислениях
Разработчики из академических кругов предложили новый подход к квантованию больших языковых моделей (LLM), который позволяет значительно сократить объём вычислений без существенной потери качества. Метод получил название InfoQuant и ориентирован на работу с низкой разрядностью — до 4 бит на вес и активацию.
Основная сложность при понижении разрядности — неравномерное распределение значений активаций, содержащее выбросы. Стандартные методы пост-тренировочного квантования (PTQ) подавляют пики или балансируют каналы, но не учитывают, насколько полученное распределение удобно для дискретизации. InfoQuant решает эту задачу с помощью преобразования, которое одновременно сужает числовой диапазон и сохраняет достаточную дисперсию внутри него.
Ключевая инновация — Peak Suppression Orthogonal Transformation (PSOT). Это ортогональное преобразование, которое перераспределяет значения активаций так, чтобы они лучше соответствовали равномерному квантователю. Для повышения робастности авторы добавили адаптивный отбор токенов-выбросов, что улучшает сходимость оптимизации.
Тестирование проводилось на нескольких семействах LLM, включая LLaMA-2. В режиме W4A4KV4 (4-битные веса, активации и кэш ключей-значений) InfoQuant в среднем сохранил 97% точности по сравнению с плавающей точкой. Для модели LLaMA-2 13B разрыв в производительности сократился на 42% относительно предыдущего лучшего результата.
Метод не требует дообучения модели и работает в одну стадию. Исходный код опубликован на GitHub, что позволяет другим исследователям воспроизвести результаты и адаптировать алгоритм для своих задач.
Разработка InfoQuant — шаг к более эффективному развёртыванию больших языковых моделей на устройствах с ограниченными ресурсами, таких как смартфоны или периферийные серверы. Снижение разрядности без потери качества открывает путь к более широкому использованию LLM в реальных приложениях.



