CEO-Bench: ИИ-агенты провалили тест на управление стартапом

Редакция RusNews 19-июн, 06:47 Наука 1 Искусственный интеллект

Группа исследователей разработала новый бенчмарк CEO-Bench, который проверяет способность языковых моделей справляться с комплексными долгосрочными задачами. В отличие от существующих тестов, ориентированных на короткие действия, CEO-Bench имитирует управление стартапом в течение 500 дней.

Агент получает контроль над вымышленной компанией через программный интерфейс на Python. Ему необходимо принимать решения по ценообразованию, маркетингу, бюджету и другим аспектам бизнеса. Усложняет задачу шумная и неполная информация, а также необходимость адаптироваться к меняющимся условиям.

Тестирование показало, что даже самые современные модели испытывают серьёзные трудности. Лучшие результаты продемонстрировали Claude Opus 4.8 и GPT-5.5, которым удалось завершить симуляцию с балансом выше стартового $1 млн. Однако ни одна из них не смогла стабильно получать прибыль на всём протяжении теста.

CEO-Bench оценивает четыре ключевых навыка: ориентацию в длинных временных горизонтах в условиях неопределённости, извлечение информации из зашумлённых данных, адаптацию к изменяющейся среде и координацию множества подзадач для достижения общей цели.

Авторы отмечают, что наиболее успешные агенты писали сложный код для моделирования когорт клиентов, прогнозирования денежных потоков и анализа истории переговоров. Однако этого оказалось недостаточно для устойчивого успеха.

CEO-Bench — первый шаг к измерению интеллекта, необходимого для длительного адаптивного прогресса. Разработчики надеются, что бенчмарк стимулирует создание более совершенных агентов, способных работать в реальных бизнес-условиях.

Полный текст исследования доступен в архиве препринтов arXiv.

CEO-Bench: ИИ-агенты провалили тест на управление стартапом

Разделы

Навигация

Теги

CEO-Bench: ИИ-агенты провалили тест на управление стартапом

Читайте также

Разделы

Навигация

Теги