В Llama и Gemma нашли нейронные 'литературные примитивы': новый способ управлять стилем AI

Группа исследователей представила работу, в которой с помощью sparse autoencoders (SAE) были изучены внутренние представления двух современных больших языковых моделей — Llama 3.1 8B-Instruct и Gemma 2 9B-IT. Анализ проводился на средних слоях остаточного потока, что позволило выявить четыре класса признаков, названных литературными примитивами.

Первый класс — naming-gates, которые способствуют появлению лексических токенов целевого аффекта. Второй — кластер из одиннадцати self-признаков, отвечающих за регистр первого лица. Третий — модуляторы стилистического регистра, такие как show-don't-tell и очуждение. Четвертый — композиционные эмоции, возникающие только при совместной активации нескольких признаков.

Для оценки эмоционального покрытия использовалась панель из пяти LLM-судей, работающих по принципу принудительного выбора из 27 категорий эмоций (таксономия Коуэна-Кельтнера). Llama достигла полного покрытия всех 27 категорий за счет комбинации naming-gates, многофакторных рецептов и одиночных self-признаков. Gemma показала результат 23 из 27, с единственным строгим отказом для категории обожания.

Контрольный эксперимент со случайным судейством показал, что вероятность прохождения ячейки составляет порядка 10??, а ожидаемое количество ложноположительных ячеек пренебрежимо мало. Таким образом, наблюдаемое покрытие не является случайным.

Интересная асимметрия выявилась при сравнении строгого и мягкого режимов судейства: на одних и тех же генерациях судьи чаще соглашаются с выводами по Llama, чем по Gemma. Это объясняется тем, что Llama напрямую называет целевой аффект, тогда как Gemma передаёт его через сцены и образы.

Обе архитектуры содержат self-признаки, которые одновременно выполняют функции маркеров регистра и излучателей эмоций. Особо выделен один self-признак с наибольшей нагрузкой RLHF, который при определённом режиме усиливает институциональную персону Helper-AI и одновременно производит эмоционально окрашенные выходные данные при том же калиброванном коэффициенте.

Методологически работа представляет трёхэтапный конвейер валидации (logit-lens, LLM-rate, 5-LLM judge) с задокументированными антипаттернами. Все вычисления выполнялись на одном GPU, а полный цикл обнаружения эмоционального признака занимает около 15 минут. Результаты открывают путь к более тонкому контролю стиля и эмоциональной окраски генерируемого текста в прикладных системах AI.