GQLA: Новая архитектура внимания адаптирует LLM под разное железо без переобучения
Исследователи из SEM Foreign RusNews ML arXiv предложили Group-Query Latent Attention (GQLA) — модификацию механизма Multi-head Latent Attention (MLA), используемого в моделях DeepSeek-V2/V3. Новая архитектура решает проблему неэффективности MLA на массовых ускорителях, не поддерживающих высочайшую пропускную способность H100.
MLA, хотя и достигает почти идеальной загрузки H100, имеет только один путь декодирования в виде поглощённого MQA (Multi-Query Attention). Это привязывает эффективный инференс к соотношению вычислительной мощности и пропускной способности памяти уровня H100, не позволяет использовать тензорный параллелизм по оси голов и не даёт выигрыша от Multi-Token Prediction (MTP) на более доступных GPU, таких как H20.
GQLA изменяет структуру MLA минимальным образом: обученные веса теперь содержат два алгебраически эквивалентных пути декодирования — MQA-absorb (как в оригинальном MLA) и GQA (Grouped-Query Attention) с расширенным кэшем на группу. Во время выполнения система автоматически выбирает подходящий путь для конкретного железа без дообучения или создания пользовательских ядер.
Таким образом, один набор весов GQLA показывает пиковую производительность как на H100 (по пути MQA-absorb, s_q=1), так и на H20 (по пути GQA с MTP, s_q=2). При этом на пути GQA поддерживается тензорный параллелизм с до 8 реплик без избыточности.
Для превращения существующих моделей с GQA-архитектурой разработчики предлагают метод TransGQLA, расширяющий идею TransMLA. На примере LLaMA-3-8B они показали, что преобразование сжимает KV-кэш до 28,125% от исходного размера на пути MQA-absorb, сохраняя при этом трафик уровня GQA на втором пути.
Исследование открывает путь к аппаратно-независимому обучению больших языковых моделей и существенно упрощает развёртывание LLM на разнородном оборудовании. GQLA может стать важным шагом к практичному инференсу моделей класса DeepSeek на массовом рынке ускорителей.





