Сжатие LLM порождает новые предвзятости: исследование на 900 тыс. тестов

Исследователи изучили влияние пост-тренировочной квантизации на смещение в больших языковых моделях. В ходе эксперимента проанализировано более 911 тысяч инференсов трех моделей (Qwen2.5-7B, Mistral-7B, Phi-3.5-mini) на данных бенчмарка BBQ, содержащего 12 148 пунктов, проверяющих стереотипные предубеждения.

Модели тестировались на пяти уровнях точности — от полной точности (BF16) до 3-битной квантизации. Результаты показали, что при 3-битном сжатии от 6% до 21% пунктов, которые ранее не содержали предвзятости, начали демонстрировать стереотипное поведение. При этом доля ответов «неизвестно» снизилась на 17,4%.

Особенно тревожным авторы называют то, что изменения начинаются уже на 4-битном уровне: 2,5–5,6% пунктов приобретают новые смещения. При этом стандартный показатель перплексии (perplexity) увеличивается менее чем на 0,5% при 8-битной квантизации и менее чем на 3% при 4-битной – то есть не отражает критической деградации справедливости.

По данным исследования, агрегированные метрики качества систематически упускают из виду ухудшение, связанное с предвзятостью. Ученые подчеркивают необходимость разработки протоколов сжатия, которые явно проверяют появление смещений перед развертыванием моделей.

Хотя квантизация широко применяется для снижения стоимости инференса и памяти, новые результаты показывают, что безопасность и честность моделей могут незаметно снижаться. Исследование рекомендует внедрять тесты на предвзятость как обязательный этап валидации сжатых языковых моделей.