SP-KV: новый метод сжатия кэша Key-Value ускоряет LLM до 10 раз

Современные языковые модели (LLM) всё чаще работают с длинными последовательностями, что приводит к огромному потреблению памяти на кэш Key-Value (KV). Затраты на хранение и передачу этих данных становятся узким местом при генерации текста.

Новый подход Self-Pruned Key-Value Attention (SP-KV) предлагает решение: встроенный лёгкий предиктор оценивает каждый KV-элемент и определяет, стоит ли его сохранять в кэше. Для недавних токенов всегда доступно локальное окно, а глобальное внимание использует только те старые пары, чья предсказанная полезность превышает порог.

Метод обучается совместно с самой моделью, используя только стандартную функцию потерь для предсказания следующего токена. Адаптация возможна из уже предобученной LLM. Важно, что SP-KV не задаёт фиксированный коэффициент сжатия, а динамически разрежает кэш в зависимости от входных данных.

Эксперименты показали сокращение размера кэша KV в 3–10 раз, причём более длинные последовательности сжимаются эффективнее. При этом падение качества на валидационном лоссе и тестах по широкому набору задач минимально или отсутствует.

Улучшение памяти напрямую преобразуется в ускорение декодирования, что критично для приложений реального времени и агентных сценариев. Кроме того, анализ разреженности выявил структурные паттерны по слоям и головам внимания, которые могут помочь в проектировании гибридных архитектур с локально-глобальным вниманием.

Исследование выполнено на базе открытых предобученных моделей и опубликовано на arXiv. Работа может стать шагом к более эффективным и быстрым LLM, способным обрабатывать длинные контексты без экспоненциального роста потребления памяти.