LoRDBA: бинарные адаптеры уменьшают размер ИИ-модели в 10 раз
Адаптация больших языковых моделей (LLM) на устройствах обычно требует заморозки квантизованной базовой модели и обучения небольшого адаптера LoRA. Однако в режиме без слияния адаптер добавляет плотную ветвь с плавающей точкой, что увеличивает нагрузку.
Чтобы решить эту проблему, группа исследователей из нескольких университетов предложила метод LoRDBA (Low-Rank Double-Binary Adaptation). Вместо двух низкоранговых факторов с плавающей точкой используются бинарные знаковые носители, а магнитуда представляется легковесными поканальными масштабами.
В результате плотная ветвь адаптера заменяется на два умножения матриц с накоплением знаков, перемежающихся поканальным масштабированием. По словам авторов, анализ конечной выборки показывает, что качество реконструкции определяется отношением остатка к магнитуде исходных факторов LoRA.
Эксперименты в режиме адаптера показали, что LoRDBA превосходит низкобитные базовые методы при равном размере модели и в ряде случаев достигает качества fp16 LoRA. При этом размер адаптера сокращается более чем в 10 раз: например, при ранге r=16 накладные расходы на задержку префилла не превышают 8%.
Память для обучения умеренно выше — примерно в 1,6 раза по сравнению с fp16 LoRA. Метод совместим со стандартным LoRA и может применяться для горячей замены адаптеров и связи между узлами. Разработчики отмечают, что LoRDBA эффективен для сценариев с ограниченными ресурсами, таких как мобильные устройства и периферийные вычисления.





