Новый индекс QuIDE оценивает эффективность квантованных нейросетей

Международная группа исследователей предложила новый универсальный показатель эффективности квантованных нейронных сетей — индекс Intelligence (QuIDE). Метрика объединяет три ключевых параметра: степень сжатия (C), точность (P) и задержку (T) в единый балл I = (C x P) / log?(T+1). Это позволяет разработчикам быстро сравнивать различные конфигурации квантования.

В работе, опубликованной на arXiv, авторы протестировали QuIDE на шести сценариях: SimpleCNN на MNIST и CIFAR, ResNet-18 на ImageNet-1K и Llama-3-8B. Результаты выявили зависимость оптимальной разрядности от сложности задачи. Для простых задач, таких как MNIST, и для больших языковых моделей 4-битное квантование оказалось наилучшим, обеспечивая хороший баланс сжатия и точности.

Однако для сложных свёрточных сетей, как ResNet-18 на ImageNet, 4-битное квантование приводило к катастрофической потере точности. Здесь оптимальным стало 8-битное квантование, которое сохраняет высокую точность при значительном сжатии. Авторы отмечают, что это подтверждает существование задачи-зависимого парето-фронта.

Чтобы избежать неверной оценки нерабочих конфигураций, исследователи ввели уточнённый вариант индекса — I', который корректирует оценку, если точность падает ниже заданного порога. Например, сырой индекс I мог бы ошибочно поощрить 4-битное квантование ResNet, но I' правильно отбраковывает такой вариант.

QuIDE предоставляет воспроизводимый протокол оценки и может использоваться как функция пригодности для поиска смешанной точности (mixed-precision search). Это открывает путь к автоматическому выбору оптимальных битовых ширин для различных слоёв сети, что особенно важно для развёртывания моделей на мобильных и встраиваемых устройствах.

Работа была выполнена без указания конкретной аффилиации авторов, что характерно для arXiv-препринтов. Полный текст и код доступны по ссылке DOI статьи.