Новый метод AdaNAGED: тонкая настройка LLM без подбора параметров и с меньшим расходом памяти
Тонкая настройка больших языковых моделей (LLM) требует значительных вычислительных ресурсов, особенно памяти. Основная проблема — обратное распространение ошибки, которое хранит активации, градиенты и состояния оптимизатора. Это ограничивает применение LLM на устройствах с ограниченной памятью.
Методы нулевого порядка (ZO) предлагают альтернативу: они оценивают градиент без обратного распространения, что снижает затраты памяти. Однако их эффективность сильно зависит от выбора шага (stepsize) и параметра сглаживания, которые часто требуют дорогостоящей настройки под конкретную задачу.
Параметро-свободная (PF) оптимизация решает эту проблему, адаптируя алгоритмические параметры без знания констант задачи. Кроме того, тонкая настройка выигрывает от учёта неоднородной структуры блоков параметров — так называемой геометрически-осведомлённой обновления, которую можно реализовать через методы на основе линейного минимизационного оракула (LMO).
В новой работе исследователи объединили эти подходы и представили метод AdaNAGED. Он объединяет обучение без градиентов (zero-order), адаптивную настройку и неевклидову геометрию обновлений. Такой синтез позволяет эффективно тонко настраивать LLM, снижая требования к памяти и избавляя от ручного подбора гиперпараметров.
Авторы доказали сходимость метода и провели экспериментальную валидацию на задаче тонкой настройки модели OPT-1.3B. Результаты подтвердили, что AdaNAGED обеспечивает стабильное обучение при меньшем потреблении памяти по сравнению с традиционными подходами первого порядка.
Разработка может упростить адаптацию больших языковых моделей к различным прикладным задачам, особенно в условиях ограниченных вычислительных ресурсов. Дальнейшие исследования направлены на масштабирование метода на более крупные модели.


