CEO-Bench: новый бенчмарк проверяет способность ИИ управлять компанией как CEO

Редакция RusNews 17-июн, 10:54 Наука 1 Искусственный интеллект

Группа исследователей разработала CEO-Bench — новый бенчмарк, предназначенный для оценки того, насколько большие языковые модели (LLM) способны выполнять функции CEO. В отличие от существующих тестов, ориентированных на отдельные когнитивные задачи, CEO-Bench моделирует реальные условия принятия решений: асимметрию информации, организационные ограничения и временные зависимости.

В рамках бенчмарка LLM-агент выступает в роли CEO, который должен перераспределить капитал между бизнес-подразделениями. Агент получает противоречивые советы от четырёх виртуальных консультантов — CFO, CTO, COO и CMO. Каждый из них обладает частной информацией и своими приоритетами, что отражает типичную для крупных компаний ситуацию.

Оценка решений проводится по четырём измерениям: интеграция ролей (учёт мнений всех советников), условная смелость (готовность идти на риск), чувствительность к истории (учёт предыдущих решений) и валидность плана (структурная корректность).

Эксперименты были проведены на пяти передовых моделях на 13 сценариях. Результаты показали, что все модели достигают высокой структурной валидности планов, но сильно различаются в стратегической калибровке — самом сложном аспекте.

Исследователи выявили систематические ошибки: захват одним советником (когда модель следует только одному голосу), консервативное поведение в условиях неопределённости и игнорирование исторической информации. Также обнаружен компромисс: чем глубже модель анализирует конфликтующие мнения, тем менее решительные действия она предпринимает.

Полученные данные очерчивают текущую границу возможностей LLM как организационных??телей и могут использоваться при проектировании будущих ИИ-ассистентов для руководителей.

CEO-Bench: новый бенчмарк проверяет способность ИИ управлять компанией как CEO

Разделы

Навигация

Теги

CEO-Bench: новый бенчмарк проверяет способность ИИ управлять компанией как CEO

Читайте также

Разделы

Навигация

Теги