Новый метод HGA позволяет запускать 64K-токеновые модели на RTX 5090 без переобучения

Команда исследователей опубликовала на arXiv препринт, описывающий новый метод Hierarchical Global Attention (HGA) — готовую замену плотного causal attention в предобученных трансформерах с длинным контекстом. HGA не требует изменения исходных параметров модели: проекции WQ, WK, WV и WO остаются нетронутыми, не вводится калибровочных параметров и не нужно повторное обучение.

Основная идея HGA — иерархическая двухуровневая маршрутизация. Сначала метод извлекает релевантные чанки с помощью компактных RoPE-чувствительных сводок, а затем уточняет выбор, направляя только наиболее значимые группы для точного токен-уровневого внимания. Это значительно сокращает количество извлекаемых токенов, сохраняя точное внимание над выбранным набором.

Применение HGA продемонстрировано на модели Qwen3-30B-A3B-Instruct-2507-FP8, запущенной на одном графическом ускорителе RTX 5090 с 32 ГБ памяти. Модифицированная модель работает с контекстом 64K токенов, тогда как хранение K/V для всех токенов на этом оборудовании невозможно.

Полный набор исторических токенов K/V размещается в оперативной или NVMe-памяти хоста, а на GPU во время внимания передаётся лишь небольшой рабочий набор маршрутизации. Таким образом, потребление видеопамяти зависит в первую очередь от весов модели и рабочего набора, а не от общей длины контекста.

Во всех протестированных длинах контекста (от 4K до 64K токенов) маршрутизированное внимание остаётся в пределах примерно 0,01–0,02 натов от плотного внимания при разреженности около 3%. Это указывает на то, что аппроксимация, вносимая иерархической маршрутизацией, невелика, а оставшийся разрыв в качестве, вероятно, вызван позиционным кодированием длинных контекстов, а не самим алгоритмом маршрутизации.

Метод открывает возможность работы с длинными контекстами на потребительских GPU без дообучения моделей и без потери точности, что особенно актуально для задач анализа больших документов, диалоговых систем и других приложений, где требуется учитывать большой объём информации.