Новый метод Blurry Window Attention ускоряет обработку длинных текстов в нейросетях
Исследователи представили новый метод внимания для языковых моделей — Blurry Window Attention (BLA). Он решает ключевую проблему архитектуры Transformer: квадратичную вычислительную сложность и растущий размер KV-кэша при работе с длинными последовательностями.
BLA относится к классу методов внимания с ограниченной памятью (ABC), вдохновлённых моделями пространства состояний (SSM). Вместо хранения всей истории внимания BLA хранит частотное окно, из которого восстанавливается размытая история KV-кэша с помощью интерполяции ядрами Дирихле.
По словам авторов, BLA можно рассматривать как обобщение скользящего окна внимания (Sliding Window Attention, SWA), где разрешение ядер Дирихле определяет чёткость восстановления, или как частный случай Gated Slot Attention (GSA), в котором фактор затухания реализован через ядра Дирихле.
В синтетическом тесте Multi-Query Associate Recall (MQAR) эффективность состояния BLA оказалась в 8 раз выше, чем у SWA. При этом BLA показал результаты, сопоставимые с популярными моделями линейного внимания. В другом тесте RegBench только BLA и SWA улучшали производительность по мере роста размера состояния среди всех протестированных линейных моделей.
Метод обещает практическое применение в сценариях, где требуется обработка длинных контекстов — например, в анализе документов, диалоговых системах или работе с кодом. Авторы подробно описали теорию и эффективную реализацию BLA, что должно упростить его интеграцию в существующие модели.
Разработка может стать шагом к созданию более эффективных языковых моделей, способных удерживать информацию из длинных последовательностей без экспоненциального роста вычислительных затрат.


