Gradient Smoothing: новый метод улучшает обучение нейросетей без изменения архитектуры

Редакция RusNews 01-июл, 10:23 Наука 1 Искусственный интеллект

В новой работе, опубликованной на arXiv (2606.30813), исследователи предложили метод Gradient Smoothing, относящийся к более широкому семейству Depth-wise Gradient Augmentation. Подход основан на наблюдении, что в глубоких нейросетях с повторяющимися блоками (например, в трансформерах) между слоями возникает структурированная взаимосвязь во время обучения.

Gradient Smoothing работает напрямую с обновлениями, которые выдает любой базовый оптимизатор (SGD, Adam, Muon). Метод применяет оконное сглаживание вдоль глубины сети, преобразуя набор блочных обновлений в новое согласованное обновление для каждого слоя. Это незначительно увеличивает вычислительные затраты и легко встраивается в существующие пайплайны.

Эксперименты охватили разнообразные конфигурации: предобучение языковых моделей, постобучение больших языковых моделей с подкреплением для рассуждений, модели диффузии и классификацию изображений с помощью Vision Transformer. Во всех случаях Gradient Smoothing показал улучшение оптимизации и обобщения.

Авторы отмечают, что метод способствует более структурированной эволюции представлений по глубине, что согласуется с его интерпретацией как структурированной глубинной предобусловливающей техники. Результаты не требуют изменения архитектуры модели или целевой функции обучения.

Таким образом, Depth-wise Gradient Augmentation становится перспективным инструментом для использования кросс-глубинной структуры в оптимизации, а Gradient Smoothing предложен как простая и широко применимая реализация этого подхода.

Gradient Smoothing: новый метод улучшает обучение нейросетей без изменения архитектуры

Разделы

Навигация

Теги

Gradient Smoothing: новый метод улучшает обучение нейросетей без изменения архитектуры

Читайте также

Разделы

Навигация

Теги