Process sidecars: метод отзыва памяти в ИИ-моделях без потери безопасности
Исследователи представили метод process sidecars для отзыва выученной памяти в языковых моделях. Проблема возникает, когда модель проходит несколько этапов обучения: сначала публичные навыки, затем приватные данные, и наконец этап безопасности, который учит модель отказываться от ответов, связанных с запомненными объектами. После этапа безопасности отзыв памяти становится сложнее — поздний оптимизатор искажает направление памяти.
Новый метод предлагает двухкоэффициентную редакцию параметров. Формула включает два слагаемых: одно отвечает за прямое вычитание обновления памяти, другое — за компенсацию транспонированного влияния безопасности. Для оценки этого влияния используется секущая, рассчитанная по одному дополнительному прогону. Это позволяет достичь точности второго порядка.
Авторы доказали, что при точной оценке транспонированного направления метод process sidecars восстанавливает контрфактическую модель, которая прошла только этап безопасности, с точностью до второго порядка. Без этой информации ни одна скалярная арифметическая редакция не может устранить ошибку первого порядка.
Эксперименты на трех языковых моделях показали, что process sidecars превосходит наивную арифметику задач. Валидированный двумерный редактор улучшил отказ от ответов на закрытых примерах во всех испытаниях по сравнению с простой арифметикой. Также он оказался лучше диагонального подмножества, где коэффициенты были равны.
Метод важен для безопасного развертывания ИИ-систем. Он позволяет удалять нежелательную память, не запуская повторное обучение с нуля и не снижая эффективность механизмов безопасности. Это шаг к более гибкому управлению знаниями в больших языковых моделях.
Исследование опубликовано на arXiv с идентификатором 2606.30788. Код и дополнительные детали не раскрыты, но авторы утверждают, что реализация проста — она использует один дополнительный прогон для расчета коррекции.



