Новая архитектура LLM без DNN: обучение за одну итерацию

Научное сообщество продолжает искать альтернативы традиционным глубоким нейронным сетям (DNN) для создания больших языковых моделей (LLM). В новой статье на arXiv представлена архитектура, полностью отказывающаяся от DNN в пользу радиально-базисных функций (RBF).

Автор утверждает, что разработанная им модель способна найти глобальный оптимум функции потерь в закрытой аналитической форме всего за одну итерацию. Это устраняет необходимость в длительном многоэтапном обучении, характерном для стандартных LLM.

Примечательно, что аналогичные исследования активно ведутся в Китае: китайские учёные изучают RBF-сети как замену DNN с улучшенной объяснимостью и точностью. Предложенная архитектура, по словам автора, основана на тех же принципах, но с ключевым отличием — замкнутым решением.

Практическое значение работы заключается в потенциальном сокращении вычислительных затрат и упрощении процесса создания LLM. Если новая архитектура подтвердит свою эффективность, она может стать основой для более доступных и интерпретируемых языковых моделей.

В статье также приводится сравнительное исследование с аналогичными методами, однако конкретные численные результаты не раскрываются. Пока что работа находится на стадии препринта и требует дальнейшей верификации.

Интерес к альтернативным архитектурам растёт на фоне стремления сделать LLM более энергоэффективными и понятными для человека. RBF-сети известны своей способностью к аппроксимации функций и могут обеспечить более высокую интерпретируемость по сравнению с DNN.

Тем не менее, до практического внедрения новой модели ещё далеко: необходимы эксперименты на крупных наборах данных и независимая проверка результатов. Однако сам факт появления такой работы стимулирует дискуссию о будущем архитектур LLM.