Исследователи представили NULLs: LLM с возможностью «забывать» отдельные источники данных
Удаление нежелательных данных из обученных языковых моделей — сложная задача. Обычно требуется дорогостоящее переобучение, результаты которого могут быть неполными. Исследователи из команды arXiv:2606.13873 предложили подход NULLs (Natively Unlearnable LLMs), встраивающий возможность забывания прямо в архитектуру модели.
Основная идея NULLs — разделить параметры модели на общие (backbone) и специализированные (sinks). В процессе обучения информация, уникальная для каждого источника данных, концентрируется в отдельных «приёмниках» (sinks), а общие знания накапливаются в backbone. Для «забывания» достаточно отключить соответствующий sink без доступа к исходным данным или градиентных обновлений.
NULLs масштабируется до миллионов источников: авторы протестировали метод на Wikipedia, содержащей около 6 миллионов статей, каждая из которых рассматривалась как независимый источник. Удаление одной статьи устраняло специфичные для неё факты, но сохраняло общую информацию, близкую к результатам переобучения с нуля.
В отдельном эксперименте с книгами о Гарри Поттере NULLs показал устойчивость к попыткам извлечения забытых данных и повторному обучению. Метод сохраняет общие языковые способности модели, не уступая стандартным трансформерам на бенчмарках.
Разработка NULLs открывает путь к более гибкому управлению данными в больших языковых моделях. Вместо того чтобы решать проблему забывания постфактум, авторы предлагают встроить её в процесс обучения, сохраняя преимущества совместного представления знаний.


