Gradient Smoothing: новый метод улучшает обучение нейросетей без изменения архитектуры
В новой работе, опубликованной на arXiv (2606.30813), исследователи предложили метод Gradient Smoothing, относящийся к более широкому семейству Depth-wise Gradient Augmentation. Подход основан на наблюдении, что в глубоких нейросетях с повторяющимися блоками (например, в трансформерах) между слоями возникает структурированная взаимосвязь во время обучения.
Gradient Smoothing работает напрямую с обновлениями, которые выдает любой базовый оптимизатор (SGD, Adam, Muon). Метод применяет оконное сглаживание вдоль глубины сети, преобразуя набор блочных обновлений в новое согласованное обновление для каждого слоя. Это незначительно увеличивает вычислительные затраты и легко встраивается в существующие пайплайны.
Эксперименты охватили разнообразные конфигурации: предобучение языковых моделей, постобучение больших языковых моделей с подкреплением для рассуждений, модели диффузии и классификацию изображений с помощью Vision Transformer. Во всех случаях Gradient Smoothing показал улучшение оптимизации и обобщения.
Авторы отмечают, что метод способствует более структурированной эволюции представлений по глубине, что согласуется с его интерпретацией как структурированной глубинной предобусловливающей техники. Результаты не требуют изменения архитектуры модели или целевой функции обучения.
Таким образом, Depth-wise Gradient Augmentation становится перспективным инструментом для использования кросс-глубинной структуры в оптимизации, а Gradient Smoothing предложен как простая и широко применимая реализация этого подхода.


