Новый метод FuRA превосходит полную тонкую настройку и LoRA при обучении ИИ
Научная статья arXiv:2605.22869 представляет новый метод FuRA (Full-Rank Adaptation) для параметро-эффективной тонкой настройки нейросетей. В отличие от полного Fine-Tuning и популярных методов вроде LoRA, FuRA учитывает спектральную структуру, заложенную при предобучении, что позволяет сохранять устойчивость обученных признаков и избегать шумных градиентов.
Ключевая идея — спектральное предобусловливание: каждая весовая матрица перепараметризуется через полноранговое сингулярное разложение (SVD), при этом один из сингулярных базисов замораживается. Это ограничивает обновления предобученным пространством столбцов, обеспечивая предобусловленную оптимизацию, которая превосходит полный Fine-Tuning при том же числе обучаемых параметров.
На основе этой концепции авторы разработали FuRA — эффективную полноранговую адаптацию с блочной тензорно-поездной факторизацией W = LSR. Большое ядро L фиксируется как предобученный блочный SVD-базис, а оптимизируются только компактное ядро R и блочные сингулярные значения S. Такой подход обеспечивает полноранговое спектральное предобусловливание, сохраняет выразительность полноранговых обновлений и достигает эффективности по параметрам, памяти и времени, сравнимой с LoRA.
FuRA последовательно превосходит полный Fine-Tuning в нескольких сценариях: при тонкой настройке LLM (прирост +1.37 на LLaMA-3-8B в тестах commonsense reasoning), при обучении с подкреплением для математического рассуждения и при визуальной инструкционной настройке для VLM. Кроме того, 4-битная квантизованная версия QFuRA также превзошла QLoRA.
Эти результаты подтверждают, что предложенный метод эффективно использует спектральную информацию предобученной сети, снижая требования к данным и вычислительным ресурсам. Разработчики уже открыли код на GitHub, что позволит исследователям и инженерам внедрить FuRA в свои проекты.


