Исследователи указали на разрыв между тестами и реальной работой ИИ-агентов
Исследователи опубликовали в архиве препринтов arXiv статью, в которой указали на фундаментальную проблему современных бенчмарков для ИИ-агентов. По их мнению, даже высокая производительность в тестах не означает, что система способна выполнять реальную интеллектуальную работу в условиях развёртывания.
В работе отмечается, что текущие методы оценки больших языковых моделей (LLM) в задачах кодирования, исследований и здравоохранения во многом повторяют логику традиционных задач NLP. В результате улучшение показателей на тестах не даёт достоверной картины того, насколько агент справится с практическими задачами.
Авторы предлагают трёхшаговый подход для явного определения того, как бенчмаркированные задачи соотносятся с заявленными видами деятельности: определение рабочей активности, спецификация тестовой среды и оценка соответствующего рабочего продукта. Они подчёркивают, что интеллектуальная работа организована через роли, локальные материалы и инструменты, а также артефакты, которые должны оставаться пригодными для последующих рабочих процессов.
Для систематизации видов деятельности исследователи заимствовали и адаптировали перечень из 18 рабочих активностей из базы профессиональных задач O*NET. Это позволяет чётко называть то, что именно оценивает тот или иной бенчмарк, и отличать его от типовых тестовых заданий.
В статье разобраны три конкретных примера: бенчмарк GDPval (оценка не связанного с кодом рабочего продукта), OfficeQA Pro (анализ документов с оценкой по финальным ответам) и APEX-SWE (инженерный бенчмарк с исполняемыми результатами). Каждый случай демонстрирует, как выбор конструкции теста влияет на максимально возможное утверждение о реальной продуктивности системы.
Исследование акцентирует внимание на необходимости пересмотра подходов к созданию и интерпретации бенчмарков для ИИ-агентов. Разработчикам рекомендуется учитывать контекст использования, роли пользователей и требования к результатам работы.


