Новый метод обучения KAN-сетей с коррелированным шумом улучшает приватность и точность

Группа исследователей представила в препринте на arXiv первую работу, посвященную оценкам риска популяции для нейросетей типа Kolmogorov-Arnold (KAN), обученных с использованием стохастического градиентного спуска (SGD) и клиппинга градиентов. Статья охватывает как не приватный SGD, так и дифференциально приватный SGD (DP-SGD) с гауссовыми возмущениями, которые интерполируют между независимым и временно коррелированным шумом.

Это исследование существенно приближает теорию KAN к практическому применению по двум направлениям: обучение проводится мини-батчами, что стандартно для современных сетей, а не полным градиентным спуском; механизмы коррелированного шума, как показано эмпирически, дают лучший компромисс между приватностью и полезностью, чем независимый шум.

Результаты обобщают предыдущие работы, в которых для KAN рассматривались полнобатчевый градиентный спуск и независимый шум. Новые оценки включают как общие границы, так и более точные специализации для случая фиксированного второго слоя.

Технически авторы разработали новый метод анализа для обучения с коррелированным шумом в невыпуклом режиме. Временная зависимость нарушает стандартную структуру условного центрирования, используемую в одношаговых аргументах SGD, а проекционный шаг препятствует точному сокращению коррелированных возмущений. Ученые обходят эти трудности с помощью вспомогательной непроекционной динамики и смещенных итераций.

Комбинируя оптимизационный анализ с аргументом обобщения на основе устойчивости, авторы получили заявленные границы риска популяции. По их словам, это первый анализ оптимизации и риска популяции для механизма коррелированного шума при дифференциально-приватном обучении за пределами выпуклого случая, в частности для нейронных сетей.