Ученые нашли способ очистить финальный вектор забывания в LLM без потери сохраненных знаний
Исследователи из нескольких университетов представили метод SAGE (Spectral Activation-GEometry Sanitization), который решает давнюю проблему в области машинного забывания: чем глубже модель забывает нежелательную информацию, тем сильнее страдают её сохранённые знания. Работа опубликована на сервере препринтов arXiv.
Авторы обнаружили, что ущерб, наносимый сохранённым знаниям, можно измерить через смещение активаций, не зависящее от конкретной реализации метода забывания. Это позволило разработать универсальный корректирующий подход, который работает «постфактум» — после завершения процесса забывания.
SAGE собирает данные о реальных активациях модулей из небольшого набора сохранённых примеров, извлекает их доминирующую геометрию активаций и решает оптимизационную задачу в замкнутой форме. В результате подавляются компоненты обновления, ориентированные вдоль высокоэнергетических сохранённых направлений, но сохраняется основное забывающее действие исходного метода.
Эффективность SAGE проверена на нескольких методах забывания, моделях разного масштаба и бенчмарках. Во всех случаях метод смягчает конфликт между забыванием и сохранением, не требуя перезапуска дорогостоящего обучения.
По мнению авторов, постфактумная санация финального вектора обновления открывает новое, ранее почти не исследованное пространство для практического машинного забывания.


