LoopQ: новый метод квантизации для рекуррентных трансформеров

Рекуррентные языковые модели (LoopLM) повышают эффективность за счёт многократного использования одних и тех же блоков трансформера, но это делает их уязвимыми к сжатию после обучения. Исследователи из arXiv (статья 2605.16343) представили LoopQ — первый подход, специально разработанный для квантизации таких моделей.

Команда выявила три ключевые проблемы: изменение распределения данных между разными ролями внутри цикла, переиспользование состояния при переходах между итерациями и рекурсивное накопление ошибок. Эти эффекты делают стандартные методы статической квантизации неэффективными.

LoopQ сохраняет общий квантизованный каркас, добавляя лёгкие адаптации: масштабирование активаций, селективные преобразования, выравнивание состояний между циклами и траекторно-зависимую оптимизацию. Это снижает расхождение распределений внутри цикла и предотвращает рост ошибок при многократном проходе.

Эксперименты на семи бенчмарках показали, что при 4-битной квантизации весов и активаций (W4A4) LoopQ улучшает среднюю точность на 68,8% и снижает перплексию на 87,7% по сравнению с лучшим статическим методом. Таким образом, рекуррентные модели можно сжимать без значительной потери качества.

Результаты открывают путь к более компактным и быстрым языковым моделям, особенно в задачах с ограниченными вычислительными ресурсами. Метод не требует дополнительного обучения и может быть применён к уже обученным моделям.