Исследование arXiv: massive activations — это функциональная особенность трансформеров
Одна из интригующих загадок современных нейросетей — аномально большие значения активаций (massive activations), возникающие в определенных скрытых измерениях и концентрирующиеся на стартовом токене последовательности. Долгое время шли споры: это просто артефакт перегруженного residual stream, который совмещает функции записи и чтения, или же эти сигналы необходимы для работы модели?
Группа исследователей из различных университетов (статья на arXiv) решила проверить первую гипотезу напрямую. Они модифицировали архитектуру трансформера, разделив residual stream на два отдельных канала: mutable scratch stream (Deliberation) — для промежуточных вычислений, и protected accumulate-only stream (Commitment) — для итогового представления, которое считывается моделью. Идея: если аномальные активации — лишь следствие того, что один поток вынужден быть и черновиком, и ответом, то выделение отдельного канала для ответа должно их устранить.
Однако эксперимент на моделях масштаба 160М и 290М параметров с одинаковым уровнем потерь показал обратное. Внутри защищенного канала Commitment модель «воссоздала» канонический выброс на стартовом токене, хотя и меньшей амплитуды, чем в стандартном трансформере. При этом выброс стал еще более сконцентрирован на первом токене, а усиление разреженности (sparsity penalty) не удалило его, а сделало еще более устойчивым.
По мнению авторов, это свидетельствует о том, что massive activations являются архитектурно устойчивым свойством: они возникают в любом представлении, которое модель использует для декодирования, независимо от проектных решений. То есть, это не случайный побочный эффект, а функционально необходимая характеристика.
Работа проливает свет на фундаментальные механизмы работы трансформеров и может повлиять на разработку более эффективных архитектур. Полученные данные ставят под сомнение простые методы «лечения» massive activations, такие как нормализация или обрезка, и указывают на необходимость учитывать их при проектировании новых нейросетей. Авторы также опубликовали код своей архитектуры Ledger Residuals для дальнейших исследований.





