Wiola: полностью новая архитектура малых языковых моделей с пятью инновациями
Исследователи представили Wiola — новую архитектуру малых языковых моделей (SLM), разработанную с нуля. Она не наследует структурные черты популярных семейств вроде GPT, LLaMA, Mistral или Falcon. Разработчики утверждают, что все компоненты созданы независимо и не имеют аналогов в существующих моделях.
Архитектура включает пять ключевых инноваций. Во-первых, Spiral Rotary Positional Encoding (SRPE) — спиральное позиционное кодирование, которое размещает токены на трёхмерной спирали, комбинируя абсолютную, относительную и иерархическую позиционную информацию. Во-вторых, Gated Cross-Layer Attention (GCLA) — механизм внимания между слоями с мягким доступом к сжатым суммам двух предыдущих слоёв.
Третья инновация — Adaptive Token Merging (ATM) — динамическое объединение семантически избыточных соседних токенов в средних слоях сети, что снижает сложность внимания без потери информации. Четвёртая — Dual Stream Feed-Forward (DSFF) — замена стандартного MLP двумя параллельными потоками, объединяемыми обученным поканальным гейтом. Пятая — WiolaRMSNorm — модифицированная нормализация с поканальным вектором смещения, предотвращающим коллапс представлений.
Модель выпущена в четырёх размерах: 120M, 360M, 700M и 1.5B параметров. Она полностью совместима с экосистемой HuggingFace Transformers. Разработчики опубликовали все математические выкладки, блок-схемы и результаты 22 архитектурных тестов, подтверждающих работоспособность.
По словам авторов, Wiola демонстрирует эффективность и может стать альтернативой существующим SLM, особенно в сценариях, где важна низкая вычислительная сложность. Пока что оценка производительности на стандартных бенчмарках не опубликована, но теоретический анализ и тесты прохождения кода говорят о корректности реализации.
Новинка может заинтересовать разработчиков, ищущих компактные модели для edge-устройств или персонализированных приложений, а также исследователей, изучающих новые архитектурные подходы. Исходный код и веса моделей, вероятно, будут распространены через открытые репозитории.


