Новый оптимизатор Ember снижает требования к памяти для обучения больших языковых моделей

Редакция RusNews 03-июл, 10:52 Наука 1 Искусственный интеллект

Научная группа представила исследование Token Geometry, в котором описан новый оптимизатор Ember для обучения больших языковых моделей. Работа опубликована на arXiv под номером 2607.01455.

Авторы показали, что градиентная геометрия интерфейса между таблицей встраивания (embedding) и языковой головой (LM-head) отличается от плотных скрытых весов. Это позволяет использовать более эффективные методы оптимизации.

Ember использует O(V + D) видеопамяти, где V — размер словаря, D — размерность векторов, тогда как оптимизатор Adam требует O(2VD). Это достигается за счёт отказа от хранения состояний оптимизатора для каждой токен-таблицы.

Разработчики утверждают, что Ember эффективно масштабируется при увеличении размера батча и количества параметров. Траектория оптимизации токенов хорошо описывается одномерным лучом, что опровергает популярное мнение о сильно невыпуклом ландшафте.

Исследование предлагает принципиальный взгляд на узкое пространство оптимизаторов, достаточных для обучения трансформеров. Код Ember открыт и доступен на GitHub, его можно интегрировать с ZeRO и FSDP.

Практическое значение работы — возможность сократить затраты на обучение больших моделей без потери качества, используя лишь килобайты памяти оптимизатора.

Новый оптимизатор Ember снижает требования к памяти для обучения больших языковых моделей

Разделы

Навигация

Теги

Новый оптимизатор Ember снижает требования к памяти для обучения больших языковых моделей

Читайте также

Разделы

Навигация

Теги