NVIDIA GB10: энергопотребление CPU остаётся «слепой зоной» для ИИ-нагрузок

Новое исследование, опубликованное на arXiv, выявило критический недостаток флагманского Edge AI-оборудования NVIDIA — отсутствие возможности измерить энергопотребление центрального процессора (CPU) на уровне отдельных процессов. Учёные протестировали систему ASUS Ascent GX10 на базе чипа GB10 и обнаружили, что платформа не поддерживает стандартные механизмы мониторинга энергии CPU, такие как RAPL или SCMI powercap.

В ходе работы авторы изучили энергозатраты агентных ИИ-нагрузок, где одна пользовательская цель запускает многошаговые сценарии с вызовами инструментов и обработкой ошибок. Оказалось, что структура оркестрации доминирует в энергопотреблении: такие рабочие процессы потребляют в 4,33 раза больше энергии на успешное достижение цели по сравнению с линейными базовыми сценариями, а для многозадачных задач показатель достигает 7,63 раза.

Кроме того, отдельное исследование Rajat et al. показало, что обработка на стороне CPU может составлять до 90,6% общей задержки и 44% всей динамической энергии в агентных нагрузках. Однако на протестированной платформе ASUS Ascent GX10 единственным доступным датчиком энергии оказался мгновенный показатель мощности GPU через NVML — никаких счётчиков CPU, мониторов INA или интерфейсов IPMI/BMC не обнаружено.

При этом исследователи выяснили, что прошивка MediaTek внутри чипа уже вычисляет потребление энергии по отдельным шинам через недокументированный интерфейс ACPI (SPBM). Однако NVIDIA, по их данным, заявила об отсутствии планов раскрывать информацию о линиях питания CPU. Таким образом, атрибуция энергии на уровне процессов, как на x86 через RAPL, на этой платформе через поддерживаемые интерфейсы невозможна.

В качестве временного решения авторы предлагают «калибровочный мост» с использованием внешнего измерения постоянного тока и вычитания энергии GPU. Они также указывают на стандартный путь через протокол SCMI powercap, который мог бы обеспечить совместимость в будущем. Исследователи призывают сообщество разработчиков низкоуглеродных вычислений требовать наблюдаемость энергии как обязательного аппаратного требования.