Новый метод SURGE решает проблему градиентного рассогласования в бинарных нейросетях

Бинарные нейронные сети (BNN) привлекают внимание благодаря высокой эффективности, но их обучение осложняется недифференцируемостью операций бинаризации. Традиционные методы, такие как Straight-Through Estimator (STE), страдают от рассогласования градиентов и потери информации из-за фиксированного клиппирования.

В новой работе исследователи представили SURGE (SURrogate GradiEnt Adaptation) — теоретически обоснованный обучаемый фреймворк для адаптации градиентов. SURGE использует вспомогательное обратное распространение для снижения рассогласования.

Ключевой компонент — Dual-Path Gradient Compensator (DPGC), который создает параллельную полнопоточную ветвь для каждого бинаризованного слоя. Это позволяет разделить градиентный поток и получить более точные оценки градиента за счет учета эффектов, выходящих за рамки линейной аппроксимации STE.

Для повышения стабильности обучения авторы разработали Adaptive Gradient Scaler (AGS), который динамически балансирует вклад градиентов из разных ветвей на основе норм. Это устраняет необходимость ручного подбора масштаба.

Эксперименты показали превосходство SURGE над современными подходами на задачах классификации изображений, обнаружения объектов и понимания языка. Результаты опубликованы в arXiv (2605.10989).

Разработка открывает путь к более эффективному обучению бинарных сетей, что важно для внедрения ИИ на устройствах с ограниченными ресурсами.