SparseOpt: новый оптимизатор ускоряет разреженное обучение нейросетей

Группа исследователей представила SparseOpt — новый оптимизатор для динамического разреженного обучения (DST) нейросетей. Как сообщается в препринте на arXiv, метод позволяет значительно ускорить сходимость по сравнению с существующими подходами.

Динамическое разреженное обучение поддерживает разреженность сети, одновременно адаптируя её топологию. Несмотря на снижение вычислительных затрат, такие методы сходятся заметно медленнее стандартного плотного обучения, часто требуя сопоставимого времени для достижения той же точности.

Авторы работы аналитически и экспериментально показали, что одной из причин медленной сходимости является пакетная нормализация (Batch Normalization). Она негативно влияет на процесс обучения разреженных сетей, создавая градиентный перекос.

Для решения этой проблемы был разработан SparseOpt — оптимизатор, учитывающий разреженность. Он корректирует влияние пакетной нормализации и позволяет быстрее адаптировать разреженную архитектуру.

Тестирование на моделях ResNet с наборами данных CIFAR-100 и ImageNet показало, что SparseOpt обеспечивает стабильно более быструю сходимость и лучшее обобщение по сравнению с существующими методами DST.

Исследование впервые системно изучает взаимодействие между пакетной нормализацией, разреженными слоями и динамическим разреженным обучением. По мнению авторов, работа приближает DST к практической конкурентоспособности с плотным обучением.