AgentAtlas: Новый метод оценки ИИ-агентов выявил скрытые провалы моделей
Группа исследователей представила AgentAtlas — фреймворк для оценки языковых моделей, действующих как агенты в сложных средах (код, браузеры, ОС, календари, файлы). Авторы отмечают, что существующие бенчмарки фрагментированы: каждый измеряет что-то своё — успешность задачи, корректность вызовов инструментов, стабильность, безопасность траектории или устойчивость к атакам.
Чтобы преодолеть эту разрозненность, AgentAtlas предлагает четыре компонента. Первый — таксономия решений агента из шести состояний: действие, запрос, отказ, остановка, подтверждение, восстановление. Второй — девяти категорийная таксономия ошибок траектории с двумя ортогональными метками (источник ошибки и влияние). Третий — сравнение двух режимов: с использованием таксономии (подсказки) и без неё, что позволяет оценить, насколько модель полагается на явную инструкцию. Четвёртый — аудит покрытия бенчмарков по шести поведенческим осям.
Для демонстрации методологии авторы протестировали восемь моделей: четыре закрытых (фронтьерных) и четыре с открытыми весами. Всего было сгенерировано 1342 примера. В режиме без явного меню меток точность траекторий упала на 14–40 процентных пунктов — все модели оказались в узком диапазоне 0,54–0,62, независимо от семейства. Ни одна модель не показала превосходства сразу по трём метрикам: точность управления, диагностика траекторий и сохранение контекстной полезности инструментов.
Исследователи подчёркивают, что это демонстрация протокола измерения, а не выпуск нового бенчмарка. Работа опубликована в архиве препринтов arXiv и продолжает линию исследований 2024–2025 годов, указывающих, что один столбец с точностью — не релевантная единица сравнения для агентов, готовых к развёртыванию.
Результаты поднимают важные вопросы о реальных возможностях современных LLM-агентов. Без внешних подсказок даже лучшие модели показывают схожую, довольно низкую точность, что ставит под сомнение прямую переносимость высоких рейтингов в практические сценарии. Анализ покрытия бенчмарков также выявил неравномерность: разные тесты замеряют разные аспекты поведения, и ни один из них не охватывает все необходимые оси.


