SSM-адаптер HRM обогнал LoRA на 34-71% в задачах с длинным контекстом
Исследователи из SEM (State-space Models) представили метод параметрически эффективной тонкой настройки для длинных контекстов — адаптер Hankel Reduced order Model (HRM). В отличие от традиционных подходов, ориентированных на проекторы внимания, HRM использует модели пространства состояний (SSM) и показал улучшение на задачах, требующих накопления последовательных состояний.
HRM инициализируется с помощью Balanced Truncation эмпирических грамианов Ганкеля. Благодаря временной инвариантности матрицы системы A, адаптер выполняет точный FFT-параллельный скан, достигая вычислительного паритета с LoRA при любой длине контекста. Это делает HRM эффективным решением для обработки длинных последовательностей.
В экспериментах на модели Mistral-7B всего с 8,4 млн обучаемых параметров HRM превзошел варианты LoRA в задачах бенчмарка LongBench. Относительная точность на QuALITY выросла на 34,8%, а показатель ROUGE-1 для QMSum — на 71,6%.
Кроме того, HRM продемонстрировал стабильное превосходство на 18 конфигурациях синтетических задач отслеживания состояния (DFA, Parity) и моделирования символов (enwik8). Анализ затворов показал, что адаптеры HRM эффективно обучаются модулировать рекуррентность, что делает их надёжной архитектурной альтернативой низкоранговой адаптации.
Разработка открывает новые возможности для тонкой настройки моделей в условиях длинных контекстов, где традиционные адаптеры на основе внимания уступают в эффективности. По данным статьи на arXiv (2606.26290), HRM может стать основой для дальнейших исследований в области гранично-эффективного обучения.



