Новый бенчмарк GENSTRAT оценивает стратегическое мышление ИИ на карточных играх
Группа исследователей опубликовала в архиве препринтов arXiv работу, посвящённую новой методике оценки стратегического мышления больших языковых моделей (LLM). Разработка получила название GENSTRAT и представляет собой генеративный бенчмарк, который позволяет создавать бесконечное множество уникальных игровых сценариев.
Авторы объясняют необходимость такого подхода тем, что существующие тесты на основе фиксированных игр быстро устаревают и не отражают реальную сложность развёртывания моделей в экономических агентах. GENSTRAT генерирует распределение карточных игр с нулевой суммой и неполной информацией для двух игроков, что даёт возможность проводить «вечнозелёную» оценку, устойчивую к заучиванию.
Методология включает шесть осей анализа: размер пространства состояний, временная глубина, чувствительность к информации, моделирование противника, управление рисками и хрупкость решений. Дополнительно вводится показатель «изрезанности» (jaggedness), который выявляет непредсказуемые скачки производительности модели между стратегически похожими играми.
В рамках эксперимента исследователи отобрали 50 тестовых игр из пула из 2000 сгенерированных и устроили турнир с участием девяти современных LLM, включая как проприетарные флагманские модели, так и модели с открытым весом. Всего было сыграно более 36 000 матчей.
Результаты показали, что новейшие модели в среднем набирают больше очков. Однако при близких суммарных показателях у них обнаружились качественно разные профили способностей. Например, три верхние строчки рейтинга заняли GPT-5, Claude и Gemini 3.1 Pro, но первые две модели оказались заметно более волатильными в локальном поведении, чем третья.
По мнению авторов, сочетание профиля способностей и меры изрезанности даёт более информативную диагностику для практического применения, чем простое ранжирование по среднему счёту. Это позволяет лучше предсказать, как модель поведёт себя в реальных рыночных или аукционных сценариях.
Работа доступна на arXiv под номером 2605.23238 и может повлиять на дальнейшие подходы к тестированию ИИ-агентов в экономических задачах.


