Норма весов управляет задержкой grokking: исследование arXiv
Исследователи изучили феномен grokking — отложенное обобщение в нейронных сетях, когда модель сначала запоминает данные и лишь спустя много эпох начинает обобщать. Споры о роли нормы весов в этом процессе продолжались: одни работы указывали на критическое значение нормы, другие его не обнаруживали.
Новое исследование на arXiv (2606.13753) впервые экспериментально вмешалось в процесс: вместо пассивного наблюдения авторы принудительно фиксировали норму весов на разных уровнях. Оказалось, что при свободном обучении с weight decay grokking наступает, когда норма достигает значения Wc, которое мало меняется при разных seed и скоростях обучения (коэффициент вариации 1–2%).
Когда норму зажимали на уровне, кратном Wc, сеть всё равно демонстрировала grokking, но задержка подчинялась закону T_grok ~ exp(?·?), где ? — множитель нормы относительно Wc. Показатель ? ? 7,5 описывает это поведение для четырёх модулей с R? = 0,996.
Ключевой результат: изменение фиксированной нормы меняло задержку примерно в 19 раз, тогда как изменение скорости обучения — всего в 2 раза. Удержание нормы выше Wc не предотвращало grokking, а лишь замедляло его.
Добавление слоя LayerNorm полностью устраняло зависимость от нормы весов, отделяя масштаб весов от функции сети. Без LayerNorm экспоненциальный закон возвращался. Таким образом, авторы установили прямую причинно-следственную связь между нормой и временем grokking.
Это открытие позволяет лучше контролировать процесс обучения нейросетей и может ускорить разработку архитектур, в которых grokking нежелателен.




