RSAE: новый разреженный автоэнкодер улучшил интерпретацию языковых моделей

Редакция RusNews 16-июн, 11:43 Наука 1 Искусственный интеллект

В новой научной работе, опубликованной на arXiv, представлен Rational Sparse Autoencoder (RSAE) — усовершенствованная версия разреженного автоэнкодера для механистической интерпретируемости нейросетей.

Существующие разреженные автоэнкодеры (SAE) используют фиксированные нелинейности, такие как ReLU, JumpReLU и TopK, что ограничивает их гибкость. Авторы утверждают, что такой жёсткий подход искажает баланс между качеством реконструкции и разреженностью.

RSAE решает эту проблему заменой фиксированной активации на обучаемую рациональную функцию. Она достаточно гибка, чтобы аппроксимировать активации из существующих семейств SAE, и при этом адаптируется к реальной геометрии пред-активаций.

Метод реализован в два этапа: сначала веса предварительно обученного базового SAE копируются, а коэффициенты рациональной функции инициализируются с помощью ослабленного алгоритма Ремеза на синтетических данных. Затем проводится тонкая настройка под стандартным регуляризованным реконструктивным лоссом.

Эксперименты на активациях residual-stream трёх открытых языковых моделей показали, что RSAE строго улучшает метрики реконструкции и качества downstream-поведения по сравнению с исходными SAE. При этом интерпретируемость на уровне признаков, оцениваемая через sparse probing, не пострадала.

Улучшения оказались стабильными для всех тестируемых моделей, базовых семейств активаций и уровней разреженности. Сам апгрейд добавляет лишь несколько скалярных параметров на автоэнкодер и выполняется за минуты на одной потребительской видеокарте.

Новый подход открывает путь к более точной интерпретации внутренних представлений больших языковых моделей без увеличения вычислительной сложности.

RSAE: новый разреженный автоэнкодер улучшил интерпретацию языковых моделей

Разделы

Навигация

Теги

RSAE: новый разреженный автоэнкодер улучшил интерпретацию языковых моделей

Читайте также

Разделы

Навигация

Теги