Математики связали теорию ударных волн и обучение нейросетей
Группа ученых представила на arXiv новую работу, в которой впервые устанавливается прямая математическая связь между теорией ударных волн и процессом обучения искусственных нейронных сетей методом стохастического градиентного спуска (SGD). Исследование опирается на аппарат дифференциальной геометрии, теории групп Ли и механики жидкости.
Авторы показали, что после факторизации симметрий параметров и применения крупнозернистого усреднения по локальной энтропии эффективная динамика SGD удовлетворяет вязкому уравнению Гамильтона–Якоби на фактор-многообразии. Более того, градиент огрубленной функции потерь подчиняется уравнению типа Бюргерса, что позволяет строго доказать возникновение ударных волн в пространстве параметров.
Теория была проверена на многослойных перцептронах, сверточных сетях, трансформерах и сетях среднего поля — во всех случаях динамика подчиняется полученным уравнениям. Ученые полагают, что этот математический аппарат может стать основой для практической диагностики глубокого обучения.
Особое внимание уделяется трансформерам: в них сырые нормы параметров часто искажены симметрийной избыточностью, что может вводить в заблуждение. Предложенные скорректированные наблюдаемые на фактор-пространстве дают принципиальную основу для мониторинга, прогнозирования и управления фазовыми переходами в процессе обучения.
Результаты работы открывают путь к созданию новых методов контроля за обучением нейросетей, позволяя предсказывать моменты резких изменений в динамике потерь и стабилизировать тренировку крупных моделей.


