GQA-?P: новый метод переноса гиперпараметров для grouped query attention
Группа учёных опубликовала на arXiv препринт, в котором описывает GQA-?P — метод максимального обновления параметризации для архитектур с групповым вниманием (Grouped Query Attention, GQA). Работа развивает идею переноса гиперпараметров (hyperparameter transfer), позволяющую существенно сократить вычислительные ресурсы при настройке больших языковых моделей.
Ключевая проблема в том, что стандартный подход ?P (maximal update parameterization) отлично работает для полносвязных и трансформерных слоёв, но его применение к GQA затруднено из-за особенностей структуры весов. Авторы предложили модифицированную спектральную норму, которая сохраняет корректные законы масштабирования даже при неполном ранге матриц весов.
Таким образом, впервые удалось вывести ?P-масштабирования для GQA — модуля, активно используемого в современных LLM (например, в LLaMA). Благодаря этому можно переносить оптимальные гиперпараметры (скорость обучения, коэффициент регуляризации) между моделями с разным количеством повторов группового внимания, не проводя полный поиск заново.
В статье продемонстрирована эффективность метода: эксперименты показали, что перенос скорости обучения работает даже при изменении гиперпараметра повторения GQA. Также авторы проверили перенос по коэффициенту regularization (weight decay), что подтверждает надёжность теоретических выводов.
Работа опирается на спектральный взгляд на обучение признаков, предложенный Янгом и соавторами в 2023 году. Новое исследование переводит эвристики по спектральным нормам в строгое определение того, что такое обучение признакам, и выводит полные масштабирования для глубины сетей и weight decay без использования lazy learning.
GQA-?P может ускорить гиперпараметрическую настройку моделей, экономя десятки тысяч долларов на вычислительных ресурсах. Хотя работа пока не прошла рецензирование, её результаты выглядят многообещающими для инженеров, работающих с LLM.


