Новый метод MODE сжимает MoE-модели с потерей качества всего 2,9%

Группа исследователей опубликовала в arXiv preprint описание нового метода MODE (Modality-Decomposed Expert-Level Mixed-Precision Quantization), предназначенного для сжатия мультимодальных больших языковых моделей на основе архитектуры Mixture-of-Experts (MoE-MLLM). Такие модели демонстрируют высокую производительность, но требуют значительных объёмов памяти GPU, что делает их сжатие критически важным.

Как отмечают авторы, существующие методы послеобученческого квантования (PTQ) с экспертно-смешанной точностью хорошо работают для MoE-LLM, но на мультимодальных моделях показывают заметное падение качества. Причиной являются два смещения при оценке важности экспертов. Первое — на кросс-модальном уровне: численное преобладание визуальных токенов заставляет частоту выбора экспертов определяться в первую очередь изображениями, маскируя эксперты, критически важные для текстовой модальности. Второе — на внутривизуальном уровне: большая доля избыточных визуальных токенов дополнительно искажает статистику, скрывая эксперты, значимые для информативного визуального контента.

MODE решает эти проблемы за счёт декомпозиции частоты выбора экспертов по модальностям, фильтрации избыточных визуальных токенов для получения «очищенной» визуальной частоты и оценки чувствительности к квантованию по каждой модальности как дополнительного сигнала к частотной оценке. Полученные сигналы интегрируются в задачу целочисленного линейного программирования (ILP), которая назначает битность каждому эксперту под заданный бюджет памяти.

Авторы провели обширные эксперименты и показали, что MODE особенно хорошо подходит для MoE-MLLM: при квантовании до конфигурации W3A16 (3-битные веса, 16-битные активации) средняя потеря качества ограничена 2,9%, а в экстремальном 2-битном режиме прирост точности ещё больше. Такие результаты позволяют существенно снизить требования к GPU без значительной деградации производительности модели.

Разработка может быть полезна для внедрения мощных мультимодальных моделей на устройствах с ограниченными ресурсами, а также для ускорения инференса в дата-центрах. Исходный код и детали метода пока не раскрыты, но описание архитектуры даёт возможность воспроизвести подход другими исследовательскими группами.

Работа выполнена в рамках международного научного сотрудничества и опубликована на arXiv для открытого доступа. Статья содержит подробное описание алгоритмов, экспериментальные данные и сравнение с существующими методами квантования.