LoRA-дообучение создаёт собственные признаки: исследование SAE
Группа исследователей представила работу, в которой с помощью разреженных автоэнкодеров (SAE) проанализировала, как меняются внутренние представления языковых моделей при дообучении методом Low-Rank Adaptation (LoRA). Результаты показывают, что LoRA-адаптеры формируют собственные структуры признаков, лишь частично перекрывающиеся с исходными.
Авторы предложили delta activation framework — метод, позволяющий выделить вклад адаптера в остаточный поток. На базе модели Gemma-2-9B с рангами LoRA 4, 8, 16 и 32 были обучены адаптер-специфичные SAE для нескольких трансформерных слоёв. Затем их пространства признаков сравнивались с предобученными SAE-словарями.
Для оценки использовались косинусная схожесть между направлениями декодеров, анализ главных углов подпространств признаков и центрированное ядерное выравнивание (CKA) между активациями. На всех слоях и рангах было обнаружено сравнительно слабое геометрическое соответствие между признаками, порождёнными LoRA, и предобученными признаками.
Адаптер-специфичные SAE значительно лучше реконструировали дельта-активации (прирост активаций за счёт LoRA), чем предобученные SAE. Это говорит о том, что обновления LoRA занимают частично отдельную структуру в остаточном потоке, не полностью покрываемую предобученными словарями интерпретируемости.
Кроме того, плотность признаков увеличивалась с ростом ранга и глубины слоя, тогда как геометрическая дивергенция оставалась относительно стабильной при изменении ранга. Таким образом, даже при малых рангах LoRA порождает отличные от исходных паттерны активации.
Эти результаты имеют практическое значение для механистической интерпретируемости, анализа адаптации и аудита безопасности дообученных языковых моделей. Они показывают, что стандартные инструменты интерпретации, обученные на базовой модели, могут не полностью отражать поведение модели после LoRA-дообучения.
Исследование опубликовано на arXiv и доступно для ознакомления. Работа продолжает серию исследований, направленных на понимание внутреннего устройства современных LLM.






