InfoQuant: новый метод квантования LLM сохраняет 97% точности при 4-битных вычислениях

Редакция RusNews 27-май, 09:51 Наука 1 Искусственный интеллект

Разработчики из академических кругов предложили новый подход к квантованию больших языковых моделей (LLM), который позволяет значительно сократить объём вычислений без существенной потери качества. Метод получил название InfoQuant и ориентирован на работу с низкой разрядностью — до 4 бит на вес и активацию.

Основная сложность при понижении разрядности — неравномерное распределение значений активаций, содержащее выбросы. Стандартные методы пост-тренировочного квантования (PTQ) подавляют пики или балансируют каналы, но не учитывают, насколько полученное распределение удобно для дискретизации. InfoQuant решает эту задачу с помощью преобразования, которое одновременно сужает числовой диапазон и сохраняет достаточную дисперсию внутри него.

Ключевая инновация — Peak Suppression Orthogonal Transformation (PSOT). Это ортогональное преобразование, которое перераспределяет значения активаций так, чтобы они лучше соответствовали равномерному квантователю. Для повышения робастности авторы добавили адаптивный отбор токенов-выбросов, что улучшает сходимость оптимизации.

Тестирование проводилось на нескольких семействах LLM, включая LLaMA-2. В режиме W4A4KV4 (4-битные веса, активации и кэш ключей-значений) InfoQuant в среднем сохранил 97% точности по сравнению с плавающей точкой. Для модели LLaMA-2 13B разрыв в производительности сократился на 42% относительно предыдущего лучшего результата.

Метод не требует дообучения модели и работает в одну стадию. Исходный код опубликован на GitHub, что позволяет другим исследователям воспроизвести результаты и адаптировать алгоритм для своих задач.

Разработка InfoQuant — шаг к более эффективному развёртыванию больших языковых моделей на устройствах с ограниченными ресурсами, таких как смартфоны или периферийные серверы. Снижение разрядности без потери качества открывает путь к более широкому использованию LLM в реальных приложениях.

InfoQuant: новый метод квантования LLM сохраняет 97% точности при 4-битных вычислениях

Разделы

Навигация

Теги

InfoQuant: новый метод квантования LLM сохраняет 97% точности при 4-битных вычислениях

Читайте также

Разделы

Навигация

Теги