KV-кэш нейросетей оказался редактируемым: исправление ошибок без полного пересчёта

Исследователи из arXiv представили метод, который меняет подход к кэшированию в нейросетях. Они обнаружили, что KV-кэш – структура, хранящая ключи и значения внимания – работает как блокнот с записанными выводами. Это свойство позволяет редактировать кэш и комбинировать его фрагменты без полного пересчёта.

Традиционное префиксное кэширование переиспользует данные только при точном совпадении начала последовательности. Изменение одного поля аннулирует весь кэш. Авторы работы показали, что поле влияет на решение менее чем на 1% – основная информация уже записана в последующих токенах. Поэтому можно заменить ключи и векторы самого поля, а остальное оставить нетронутым.

С этой точки зрения кэш становится редактируемым. Если в поле есть ошибка, можно исправить её, и модель скорректирует вывод. С цепочкой рассуждений (Chain-of-Thought) точность восстановления решения достигает 1,00 на модели 8B при затратах около 1% от полного пересчёта. Без CoT исправление игнорируется.

Кроме редактирования, кэш оказался компонуемым. Благодаря позиционной инвариантности (RoPE) заранее вычисленные фрагменты можно перемещать и вставлять в любой контекст. Результат неотличим от полного пересчёта: косинусное сходство логитов составляет 0,90–0,999, а время до первого токена снижается с O(L?) до O(L).

Объединённый агент, использующий редактирование и компоновку, остаётся идентичным по решениям полному пересчёту, но задержка снижается до 14,9 раза. Метод работает с любыми поточными моделями внимания, проверен на разных масштабах, квантизации, смеси экспертов и мультимодальных кэшах. Для некоторых вариантов внимания требуются небольшие адаптеры.

Так как исправление добавляется в конец (append-only), оно совместимо с производственным префиксным кэшированием. В онлайн-тесте на vLLM кэш оставался выровненным с 98,5% попаданий, а P90 задержки до первого токена сократилась в 53–398 раз.