Ученые научились выявлять и редактировать память нейросетей: метод AI Engram
Международная группа ученых опубликовала работу, в которой предложила геометрический подход к идентификации следов памяти в искусственных нейросетях. Метод получил название AI Engram и основан на формализации нейробиологических критериев: специфичности, реактивации, достаточности и необходимости. Исследование доступно на arXiv.
Авторы свели задачу поиска следов памяти к обратной задаче с ограничениями. Для её решения был получен аналитический оценщик в замкнутой форме, который выделяет отдельные воспоминания из глобально запутанных параметров сети. Оказалось, что это решение соответствует естественному градиентному обновлению на многообразии параметров.
Ключевая особенность AI Engram — возможность хирургического вмешательства в обученные знания. Любое подмножество воспоминаний можно объединить или стереть с помощью простых линейных операций. Для этого не требуется итеративная оптимизация или повторное обучение модели.
Эксперименты проводились на нейросетях различной сложности — от простых многослойных перцептронов (MLP) до больших языковых моделей (LLM). Во всех случаях метод продемонстрировал причинную валидность и масштабируемость. Ученые подтвердили, что выделенные следы памяти действительно вызывают соответствующее поведение сети.
Работа мостит разрыв между теориями биологической памяти и представлением знаний в искусственных нейронных сетях. Она показывает, как глубокие сети могут одновременно поддерживать функциональную специфичность в условиях распределенного хранения информации.
Практическое значение метода велико: он может лечь в основу инструментов для контроля над знаниями больших языковых моделей, позволяя удалять нежелательную информацию (например, персональные данные) или целенаправленно добавлять новые сведения без полного переобучения. Пока техника протестирована в лабораторных условиях, но авторы планируют дальнейшие исследования для промышленного применения.


