Новый критерий эффективности ИИ-агентов заменит лидерборды

Традиционные лидерборды для оценки LLM-агентов могут вводить в заблуждение. К такому выводу пришли авторы нового препринта на arXiv (2606.19704), которые провели масштабный анализ одного MCP-бенчмарка.

В работе объединены 14 параллельных исследований, охватывающих новые классы активов, включая мультимодальные визуальные расширения, альтернативные оркестровки, стратегии поиска и режимы рассуждений. Также изучались оптимизация инфраструктуры и методика оценки.

Сопоставив эти данные с семью более ранними бенчмарками, исследователи пришли к выводу: лидерборды, построенные на агрегатных баллах, систематически недооценивают сложность реального развертывания агентов. Рейтинги, полученные на тестовой выборке, не переносятся на новые условия — это подтверждают ретроспективы соревнований, где публичные и скрытые результаты резко отличались.

Вместо усредненных баллов авторы предлагают оценивать predictive validity — корреляцию между ранжированием на тестовой выборке и на вневыборочных данных. Для этого разработана 12-уровневая измерительная система, которая выявляет аспекты, упущенные современными бенчмарками вроде HELM.

Предложены три фальсифицируемых критерия с явными порогами для оценки устойчивости результатов. Частично гипотеза подтверждается существующими данными, но для окончательных выводов их недостаточно.

В заключение авторы представляют предварительный дизайн пилотного исследования и видение того, как должны выглядеть бенчмарки следующего поколения для агентов. Работа доступна в открытом доступе на arXiv.