Ученые предложили легковесный метод ADS для выбора моделей в непрерывном обучении

В задачах непрерывного обучения (Continual Learning, CL) ключевой проблемой является баланс между пластичностью и стабильностью предобученных нейросетей. Ранее в качестве прокси для этого баланса использовался сдвиг логитов (logit shift), однако его вычисление требует значительных ресурсов и затрудняет масштабный выбор модели.

Международная группа исследователей представила новый подход — Architecture-driven Shift (ADS), который позволяет оценивать сдвиг логитов с минимальными затратами. В основе метода лежит декомпозиция сдвига на архитектурную и дата-зависимую составляющие, что позволило вывести теоретическую связь между гетерогенной архитектурой сети и её поведением на предыдущих задачах.

ADS опирается на три механизма: масштабирование спектральной нормы градиентов весов относительно ширины слоя, длину пути оптимизации при обучении новой задаче и асимптотический конфликт задач в широких сетях. Для хорошо обученной модели более высокое значение ADS соответствует большему сдвигу логитов после обучения на текущей задаче.

Эксперименты на более чем 175 различных архитектурах подтвердили сильную монотонную корреляцию между ADS и реальным сдвигом логитов — коэффициент Спирмена не опускался ниже 0,731. Это показывает, что ADS может служить эффективным легковесным прокси.

Практическая значимость работы заключается в возможности использовать ADS для оценки ожидаемой калибровочной ошибки (expected calibration error) — широко применяемой метрики для выбора надежных моделей в CL. Метод был протестирован на трёх наборах данных в шести различных сценариях, и результаты подтвердили его универсальность.

Разработка открывает путь к более быстрому и экономичному выбору предобученных моделей для непрерывного обучения, снижая потребность в дорогостоящих вычислениях. Исследование опубликовано на arXiv и доступно для ознакомления.