Отсроченное обобщение в нейросетях: новая теория связывает grokking с фазовыми переходами

Феномен grokking — внезапное и отсроченное обобщение после длительного переобучения — долгое время оставался загадкой в машинном обучении. Новая теоретическая работа, опубликованная на arXiv, предлагает объяснение этого явления на основе фазовых переходов в нейросетях.

Авторы изучили поведение линейных глубоких нейросетей (DNN) при вариации силы L2-регуляризации. Они обнаружили, что при изменении этого параметра нейросеть испытывает фазовые переходы первого рода: каждый переход знаменует появление новой обучаемой характеристики. Ниже критического уровня регуляризации все признаки в принципе обучаемы, но система может застревать в метастабильных состояниях, разделённых энергетическими барьерами.

Ключевая идея работы: grokking соответствует гистерезису в таких фазовых переходах. Специально усиливая L2-регуляризацию, исследователи удерживали модель в метастабильном состоянии с низкой точностью. Выход из него происходил только тогда, когда шум стохастического градиентного спуска (SGD) был достаточен для преодоления энергетического барьера. Время выхода подчинялось закону Аррениуса.

Экспериментально учёные воспроизвели типичную кривую grokking: тестовая ошибка долгое время оставалась высокой, а затем резко снижалась до уровня обучающей. Им удалось растянуть время задержки на два порядка величины, просто изменяя начальные условия.

Ещё один важный вывод: количество метастабильных состояний равно числу сингулярных значений ковариационной матрицы данных, то есть числу обучаемых характеристик. Потенциал для гистерезиса естественным образом растёт с ростом сложности задачи. Авторы утверждают, что тот же механизм, вероятно, работает и в нелинейных нейросетях.

Понимание grokking как результата фазовых переходов открывает путь к более эффективным стратегиям обучения: например, к управлению шумом SGD для ускорения выхода из метастабильных состояний.