Новый оптимизатор Ember снижает требования к памяти для обучения больших языковых моделей
Научная группа представила исследование Token Geometry, в котором описан новый оптимизатор Ember для обучения больших языковых моделей. Работа опубликована на arXiv под номером 2607.01455.
Авторы показали, что градиентная геометрия интерфейса между таблицей встраивания (embedding) и языковой головой (LM-head) отличается от плотных скрытых весов. Это позволяет использовать более эффективные методы оптимизации.
Ember использует O(V + D) видеопамяти, где V — размер словаря, D — размерность векторов, тогда как оптимизатор Adam требует O(2VD). Это достигается за счёт отказа от хранения состояний оптимизатора для каждой токен-таблицы.
Разработчики утверждают, что Ember эффективно масштабируется при увеличении размера батча и количества параметров. Траектория оптимизации токенов хорошо описывается одномерным лучом, что опровергает популярное мнение о сильно невыпуклом ландшафте.
Исследование предлагает принципиальный взгляд на узкое пространство оптимизаторов, достаточных для обучения трансформеров. Код Ember открыт и доступен на GitHub, его можно интегрировать с ZeRO и FSDP.
Практическое значение работы — возможность сократить затраты на обучение больших моделей без потери качества, используя лишь килобайты памяти оптимизатора.


