CEO-Bench: ИИ-агенты провалили тест на управление стартапом
Группа исследователей разработала новый бенчмарк CEO-Bench, который проверяет способность языковых моделей справляться с комплексными долгосрочными задачами. В отличие от существующих тестов, ориентированных на короткие действия, CEO-Bench имитирует управление стартапом в течение 500 дней.
Агент получает контроль над вымышленной компанией через программный интерфейс на Python. Ему необходимо принимать решения по ценообразованию, маркетингу, бюджету и другим аспектам бизнеса. Усложняет задачу шумная и неполная информация, а также необходимость адаптироваться к меняющимся условиям.
Тестирование показало, что даже самые современные модели испытывают серьёзные трудности. Лучшие результаты продемонстрировали Claude Opus 4.8 и GPT-5.5, которым удалось завершить симуляцию с балансом выше стартового $1 млн. Однако ни одна из них не смогла стабильно получать прибыль на всём протяжении теста.
CEO-Bench оценивает четыре ключевых навыка: ориентацию в длинных временных горизонтах в условиях неопределённости, извлечение информации из зашумлённых данных, адаптацию к изменяющейся среде и координацию множества подзадач для достижения общей цели.
Авторы отмечают, что наиболее успешные агенты писали сложный код для моделирования когорт клиентов, прогнозирования денежных потоков и анализа истории переговоров. Однако этого оказалось недостаточно для устойчивого успеха.
CEO-Bench — первый шаг к измерению интеллекта, необходимого для длительного адаптивного прогресса. Разработчики надеются, что бенчмарк стимулирует создание более совершенных агентов, способных работать в реальных бизнес-условиях.
Полный текст исследования доступен в архиве препринтов arXiv.


