Бенчмарк ResearchClawBench: ИИ-агенты пока далеки от самостоятельных научных открытий

Автономные ИИ-агенты всё чаще применяются в научной работе, но их способность проводить полноценные исследования от начала до конца остаётся под вопросом. Группа учёных представила бенчмарк ResearchClawBench — новый инструмент для оценки таких возможностей.

Бенчмарк включает 40 задач из 10 научных областей. Каждая задача основана на реальной опубликованной статье: агенту предоставляют связанную литературу и исходные данные, а целевую статью скрывают. Таким образом, оценивается способность ИИ «переоткрыть» результаты без подглядывания в ответ.

Для оценки используются экспертные рубрики с весовыми критериями. Это позволяет не только проверять точное воспроизведение, но и оставлять пространство для новых открытий, если агент предложит альтернативное решение.

В рамках исследования протестировали семь автономных агентов и семнадцать чистых языковых моделей по единому протоколу. Лучший результат среди агентов показал Claude Code — 21,5 баллов из 100. Среди моделей-языков лидирует Claude-Opus-4.7 с 20,7 баллами. Средний показатель всех LLM составил 26,5 балла.

Анализ ошибок показал, что основные проблемы ИИ связаны с несоответствием экспериментального протокола, расхождением с исходными данными и отсутствием критической научной аргументации. Это говорит о том, что современные системы пока не готовы к автономному научному поиску без доработки.

ResearchClawBench предоставляет воспроизводимый эталон для отслеживания прогресса в направлении автономных научных исследований. По мнению авторов, подобные бенчмарки помогут систематически улучшать ИИ-системы, приближая их к уровню профессиональных учёных.