Ученые предложили новый подход к обучению нейросетей: энтропийная регуляция с геометрическими мерами
Глубокое обучение всё чаще рассматривается как динамический процесс в пространстве параметров, однако существующие теории зачастую трактуют обучение как замкнутую оптимизационную задачу. Это ограничивает применение моделей в реальных сценариях, где присутствуют неопределённость, ограничения ресурсов, сдвиг распределения данных и обратная связь от человека.
В новой работе на arXiv (2605.22940) группа исследователей предлагает фреймворк Human-Centered Learning Mechanics (HCLM), который сочетает динамический и информационно-теоретический подходы. Ключевая идея заключается в том, что энтропийная регуляция полезна только тогда, когда выбранный суррогат энтропии порождает невырожденную информационную силу вдоль траектории оптимизации. В противном случае энтропийные члены могут порождать слабые, неустойчивые или неверно направленные градиенты, сводя динамику к обычной минимизации потерь.
Авторы вводят понятие эффективной энтропии и исследуют вычислимые геометрические суррогаты, включая дисперсионные меры и логарифм детерминанта ковариационной матрицы. Работа содержит три основных вклада. Во-первых, формализована энтропийная регуляция через эффективную информационную силу и охарактеризованы вырожденные энтропийные режимы. Во-вторых, при явных допущениях получены результаты о сходимости, энтропийном потоке, градиентном потоке Вассерштейна и обобщении с зашумлёнными представлениями.
Третий вклад — условная динамическая интерпретация поведения, напоминающего скейлинговые законы, как баланса между инжекцией информации, диссипацией энтропии и остаточным риском. Авторы подчёркивают, что это не является безусловным выводом эмпирических скейлинговых законов нейросетей, но предлагает объяснение на уровне динамики.
Эксперименты по контролируемому обучению представлений подтверждают гипотезу: геометрические суррогаты энтропии, особенно логарифм детерминанта ковариации, порождают более сильные и стабильные информационные силы по сравнению с энтропией на основе softmax-normalization. Это может иметь практическое значение для повышения устойчивости и обобщающей способности нейронных сетей.


