Нейросети: новый метод предсказывает появление концепций на 5% обучения

Исследователи из нескольких университетов разработали теорию бифуркации представлений в нейронных сетях, которая позволяет детектировать появление концепций в реальном времени без использования меток. Работа опубликована на arXiv.

Авторы проанализировали динамику обучения с помощью пассивного GMM-зонда, подключенного к энкодеру. Они показали, что возникновение структуры соответствует суперкритической вилкообразной бифуркации, управляемой гессианом функции потерь. Ключевой результат — обнаружение теоретически предсказуемого перехода через ноль (?_c), который в сравнении с текущим состоянием сети (?) даёт универсальный безметочный фазовый координат ?(t)/?_c(t).

Этот коэффициент вычисляется исключительно по скрытым состояниям и не требует дополнительных размеченных данных. Исследователи эмпирически подтвердили существование четырёх различных режимов перехода в разных архитектурах: SAE на языковых моделях (Pythia), SSL на CIFAR и grokking на модульной арифметике.

Особый интерес представляет феномен отложенного выхода из симметрии при конечной диссипации. Оказалось, что макроскопическое нарушение симметрии может запаздывать относительно начального перехода через ноль на порядки величины, что даёт строгое динамическое объяснение задержки, наблюдаемой в феномене grokking.

Микроскопически бифуркация создаёт общее неустойчивое подпространство, вынуждающее коллективное нарушение симметрии. Авторы назвали это «лотереей признаков» в обучении SAE: итоговая интерпретируемость признака становится предсказуемой на удивление рано. Уже на 5% обучения чистота атома в верхнем дециле надёжно предсказывает финальную чистоту сходимости, причём ранние атомы достигают более чем 12-кратного превышения базовой чистоты.

Помимо объяснения возникновения концепций, предложенный коэффициент ?/?_c служит практическим индикатором раннего предупреждения о здоровье обучения. Он позволяет обнаружить начало формирования полезной структуры, кристаллизацию идентичности признаков и эпохи коллапса представлений задолго до того, как отреагируют стандартные downstream-метрики.

Разработка открывает путь к созданию самодиагностируемых систем ИИ, способных сигнализировать о критических изменениях в представлениях на ранних этапах обучения, что может существенно ускорить настройку архитектур и повысить интерпретируемость моделей.