Ученые создали систему учета энергии для дистилляции больших языковых моделей
Рост популярности больших языковых моделей (LLM) привел к резкому увеличению спроса на GPU и расширению дата-центров, что вызывает обеспокоенность по поводу потребления электроэнергии и нагрузки на энергосети. Дистилляция считается одним из самых эффективных способов получения более дешевых и компактных моделей, однако её полные энергетические затраты часто остаются за кадром.
Ученые из исследовательской группы, работа которых опубликована на arXiv, разработали всеобъемлющий фреймворк для учёта энергии в процессах дистилляции. Система измеряет полную вычислительную стоимость конвейеров дистилляции через детальный постадийный мониторинг энергопотребления GPU.
В экспериментах исследователи разделили и зарегистрировали эмпирическое энергопотребление на различных фазах: генерация данных, кэширование логитов и оценка. Они систематически измерили энергию и выбросы для двух распространенных методов дистилляции: классической дистилляции знаний на основе логитов и тонкой настройки с синтетическими данными (SFT).
На основе измерений были построены энерго-качественные границы Парето, которые наглядно демонстрируют скрытые затраты, ранее не учитывавшиеся. Авторы отмечают, что игнорирование энергопотребления преподавательской модели может исказить реальную эффективность дистилляции.
Из полученных данных были выведены практические правила проектирования для выбора методов дистилляции и гиперпараметров с учётом энергетических и бюджетных ограничений. Это позволит разработчикам принимать более взвешенные решения при создании эффективных моделей.
В дополнение к фреймворку исследователи опубликовали инструмент для измерения и протокол учёта с открытым исходным кодом. Это обеспечивает стандартизированную основу для воспроизводимых исследований в области дистилляции, где полное энергетическое воздействие конвейеров будет явно учитываться.
Разработка особенно актуальна на фоне стремительного роста вычислительных мощностей, потребляемых ИИ-системами. Предложенный подход позволяет не только сократить эксплуатационные расходы, но и снизить углеродный след, что соответствует глобальным тенденциям к устойчивому развитию.



