GEM: метод геометрического смешивания энтропии улучшает подбор данных для LLM

Новый подход к отбору данных для обучения больших языковых моделей (LLM) предложен в препринте на arXiv. Фреймворк GEM (Geometric Entropy Mixing) решает проблему неоптимального смешивания данных, которая возникает из-за ошибок категоризации: человеческие таксономии страдают от онтологического рассогласования, а евклидова кластеризация не учитывает анизотропию эмбеддингов.

GEM переформулирует задачу подбора данных как вариационную проблему на гиперсфере с дополнительным регуляризатором баланса смешивания. Авторы используют алгоритм Minorize-Maximize (MM) для оптимизации и отделяют генеративный априор, что позволяет эффективно противодействовать коллапсу кластеров и обнаруживать семантические структуры, невидимые для стандартных эвристик.

Для масштабирования метода на веб-масштабы была применена техника teacher-student дистилляции, а для интерпретируемого построения таксономий введена метрика Geometric Influence Score (GIS).

Эксперименты с моделями размером 1,1 миллиарда параметров показали, что интеграция GEM в существующие стратегии смешивания (DoReMi и RegMix) повышает среднюю точность на задачах downstream до 1,2%. Авторы отмечают, что метод предлагает устойчивую систему координат для предсказуемого смешивания данных.

Разработка может быть полезна для компаний и исследовательских групп, занимающихся предобучением LLM, особенно при работе с разнородными корпусами данных. Полный текст препринта доступен на arXiv.