Ученые объяснили, почему нейросети тяготеют к простым функциям
Исследователи представили новую работу на arXiv, в которой математически обосновали, почему глубокие нейронные сети склонны сходиться к более простым функциям. Работа опирается на теорию особенного обучения (Singular Learning Theory) и инструменты полиномиальной алгебры, такие как теорема Мейсона.
Авторы сосредоточились на полносвязных сетях с мономиальными функциями активации (степенные функции). Они показали, что критические точки в процессе градиентной оптимизации — где якобиан параметризации теряет ранг — возникают именно тогда, когда часть нейронов становится неактивной или избыточной. Фактически, сеть в таких точках превращается в подсеть меньшего размера.
Это явление, известное как неявное смещение (implicit bias), ранее наблюдалось экспериментально, но не имело строгого математического объяснения для широкого класса архитектур. Новая работа дает такое объяснение для сетей с мономиальными активациями при достаточно высокой степени активации.
Результаты перекликаются с принципом бритвы Оккама: среди множества возможных решений сеть выбирает наиболее простое. Авторы показали, что сингулярные точки в пространстве параметров соответствуют именно таким простым подсетям, что направляет оптимизацию в их сторону.
Исследование имеет значение для понимания обобщающей способности нейронных сетей: склонность к простоте помогает избегать переобучения. В перспективе эти идеи могут быть распространены на более сложные архитектуры и функции активации.



