HELLoRA: дообучение MoE-моделей с 85% экономией параметров и ускорением в 1.9 раза

Группа исследователей представила новый метод параметро-эффективного дообучения для моделей смеси экспертов (MoE). Разработка получила название HELLoRA (Hot Experts Layer-Level Low-Rank Adaptation).

Стандартный метод LoRA, широко применяемый для дообучения больших языковых моделей, изначально ориентирован на плотные архитектуры. В MoE-моделях, где параметры распределены по множеству экспертов, но при инференсе активируется лишь часть из них, LoRA оказывается неоптимальным — он добавляет адаптеры ко всем модулям, игнорируя разреженность.

HELLoRa решает эту проблему, размещая LoRA-адаптеры только на самых часто активируемых экспертах каждого слоя. Такой подход сокращает число обучаемых параметров и вычислительные затраты, одновременно улучшая качество дообучения. Авторы связывают этот эффект со структурированной регуляризацией, сохраняющей предобученную специализацию экспертов.

Метод протестировали на трёх MoE-моделях: OlMoE-1B-7B, Mixtral-8x7B и DeepSeekMoE. Задачи включали математическое рассуждение, генерацию кода и выравнивание безопасности. HELLoRA стабильно превосходил сильные базовые PEFT-методы.

На модели OlMoE HELLoRA использует лишь 15.7% обучаемых параметров относительно стандартного LoRA, снижает вычислительные затраты адаптеров на 38.7%, увеличивает пропускную способность обучения в 1.9 раза и повышает точность на 9.2%. На DeepSeekMoE метод также обходит LoRA, используя только 23.2% его параметров.

Таким образом, активационно-зависимое размещение адаптеров открывает практичный путь к масштабированию параметро-эффективного дообучения для MoE-языковых моделей. Исследование опубликовано на arXiv.