Исследование SWAVE: комплексные рекуррентные языковые модели — эволюция концепции

На arXiv выложена исследовательская работа, посвящённая эволюции комплексной рекуррентной языковой модели SWAVE. Модель содержит 169,26 млн параметров, использует размерность скрытого состояния 384, 16 слоёв и контекстное окно 2048 токенов. Обучение проводилось на датасете FineWeb-Edu с использованием двух ускорителей H100 NVL.

Авторы подробно разбирают три фазы развития архитектуры SWAVE. Первоначальная версия включала «резонансную голову», которая, как выяснилось, допускала коллапс мнимого канала — глобальный минимум потерь приводил к вырождению. Эта проблема была названа cos-domination collapse. Для её устранения голову заменили на развязанную архитектуру с независимыми таблицами вложений для действительной и мнимой частей, позаимствованную из модели Phase-Associative Memory (PAM).

Благодаря этому изменению удалось стабилизировать обучение на 200 000 шагов: лучший перплекситет (22,0) был достигнут на шаге 89 861. Два компонента — ComplexNorm и Wave Propagation Scan — оказались несущими на всех этапах и были сохранены в финальной архитектуре. ProtectGatedScan переосмыслен как структурный априор, а не обучаемое поведение.

Четыре концепции мультимасштабного удержания информации не показали значимого улучшения при контролируемом тестировании и были признанs ненесущими. ComplexGatedUnit заменён действительным канальным смесителем на squared-ReLU с меньшим числом параметров. Вспомогательные цели обучения перестали приносить пользу после устранения структурных ограничений.

В результате исследования авторы дают формальную характеристику cos-domination collapse, предлагают параллельный проход с обратным ходом в логарифмическом пространстве для численной стабильности, а также формулируют шесть переносимых инженерных принципов для обучения комплексных рекуррентных моделей. Кроме того, разработана методология трассировки от плана к коду, позволяющая выявлять структурные расхождения, которые пропускают обычные тесты.

Работа имеет прикладное значение для развития рекуррентных нейросетей, работающих с комплексными числами. Полученные выводы могут быть использованы при проектировании новых архитектур, особенно в задачах моделирования длинных последовательностей.