Новый метод сжатия LLM снижает перплексию до 85% при квантовании в 1–3 бита
Развертывание больших языковых моделей (LLM) требует значительных вычислительных ресурсов и памяти. Для решения этой проблемы применяют квантование (снижение точности весов) и прореживание (удаление избыточных частей сети). Однако традиционные методы часто оптимизируют ошибки послойно, не учитывая накопление погрешностей по всей модели, а прореживание и квантование выполняют по отдельности, что приводит к неоптимальным результатам.
В новой работе на arXiv представлен сквозной фреймворк, который объединяет структурное прореживание и квантование смешанной точности в единое пространство поиска. Авторы предложили стратегию посттренировочного квантования (PTQ), минимизирующую глобальное распространение ошибок по всей сети, а не на уровне отдельных слоёв.
Этот подход позволяет одновременно выбирать, какие структурные компоненты удалить, и какую точность (количество бит) назначить каждому весу. В результате достигается лучшее сжатие при сохранении качества модели.
Эксперименты показали, что при ультранизких точностях (1–3 бита) предложенный метод снижает перплексию на WikiText на 21% по сравнению с лучшими методами квантования весов и активаций. По сравнению с методами квантования только весов, перплексия снижена на 59% на WikiText и на 85% на C4. Кроме того, фреймворк превосходит современные совместные методы прореживания и квантования.
Разработка открывает путь к более эффективному развертыванию LLM на устройствах с ограниченными ресурсами, сохраняя высокое качество генерации. По словам авторов, совместная оптимизация — ключ к решению проблемы компромисса между сжатием и производительностью.
Работа доступна на arXiv под номером 2606.07819.



