CEO-Bench: новый бенчмарк проверяет способность ИИ управлять компанией как CEO
Группа исследователей разработала CEO-Bench — новый бенчмарк, предназначенный для оценки того, насколько большие языковые модели (LLM) способны выполнять функции CEO. В отличие от существующих тестов, ориентированных на отдельные когнитивные задачи, CEO-Bench моделирует реальные условия принятия решений: асимметрию информации, организационные ограничения и временные зависимости.
В рамках бенчмарка LLM-агент выступает в роли CEO, который должен перераспределить капитал между бизнес-подразделениями. Агент получает противоречивые советы от четырёх виртуальных консультантов — CFO, CTO, COO и CMO. Каждый из них обладает частной информацией и своими приоритетами, что отражает типичную для крупных компаний ситуацию.
Оценка решений проводится по четырём измерениям: интеграция ролей (учёт мнений всех советников), условная смелость (готовность идти на риск), чувствительность к истории (учёт предыдущих решений) и валидность плана (структурная корректность).
Эксперименты были проведены на пяти передовых моделях на 13 сценариях. Результаты показали, что все модели достигают высокой структурной валидности планов, но сильно различаются в стратегической калибровке — самом сложном аспекте.
Исследователи выявили систематические ошибки: захват одним советником (когда модель следует только одному голосу), консервативное поведение в условиях неопределённости и игнорирование исторической информации. Также обнаружен компромисс: чем глубже модель анализирует конфликтующие мнения, тем менее решительные действия она предпринимает.
Полученные данные очерчивают текущую границу возможностей LLM как организационных??телей и могут использоваться при проектировании будущих ИИ-ассистентов для руководителей.





