Ученые выяснили: квантование кэша KV разрушает выравнивание безопасности LLM

Квантование кэша ключ-значение (KV) широко используется для снижения потребления памяти при инференсе больших языковых моделей (LLM). Однако, как показано в новой работе на arXiv, его влияние на безопасность моделей оставалось неизученным. Исследователи проанализировали одиннадцать инструктивных моделей (от 3,8 до 72 миллиардов параметров) и пять бенчмарков, охватив 1894 промпта.

Результаты оказались тревожными: низкобитное квантование может незаметно для стандартных метрик разрушать выравнивание безопасности. Например, Mistral-7B потерял 15,2% отказов на вредоносные запросы при росте перплексии всего в 1,03 раза. Универсальной безопасной битности не существует — у каждой модели свои фазовые переходы, невидимые для перплексии и точности.

Коренная причина, по данным исследования, геометрическая: признаки безопасности занимают низкоразмерное подпространство активаций, которое в 100–1000 раз уязвимее к шуму квантования, чем полное пространство представлений, усредняемое в перплексии. Это объясняет, почему стандартные метрики не отражают потерю выравнивания.

Основываясь на этом наблюдении, авторы предложили диагностический метод Per-Channel Reduction (PCR). Он классифицирует каждую модель по одному из трёх механистических режимов отказа: «выбросы давят безопасность» (safety живёт в не-выбросных каналах, повреждаемых из-за масштабных коэффициентов выбросов), «выбросы как безопасность» (safety перекрывается с выбросами, и более мелкая гранулярность не помогает) и «многослойное разбавление» (safety распределена по многим слоям, и поэтапные правки неэффективны).

PCR правильно предсказал направление смягчения на всех девяти первичных моделях и одной удерживаемой модели из независимого семейства, используя всего 20 калибровочных промптов. Метод обобщается на невидимые промпты, модели и продакшен-квантователи, включая KIVI, где восстановилось до 97,2% потерянного выравнивания.

Протокол не требует дообучения, занимает около 35 GPU-минут и восстанавливает до 97% потерянного выравнивания при минимальном увеличении памяти. Авторы подтвердили уязвимости в продакшен-системе vLLM с FP8-кэшем KV на графических ускорителях NVIDIA.