ИИ-агент самостоятельно создал и выложил iOS-приложение в App Store — новый способ оценки передовых моделей
Традиционные бенчмарки долгое время оставались основным инструментом для отслеживания прогресса в области искусственного интеллекта. Однако, как отмечают авторы новой научной работы, такие тесты могут как завышать, так и занижать реальные возможности систем, поскольку они ориентированы на чётко определённые задачи, автоматическую проверку и низкие затраты.
В качестве альтернативы исследователи предложили концепцию «оценок открытого мира» (open-world evaluations). Это долгосрочные, сложные задачи из реальной жизни, которые оцениваются не автоматически, а с помощью качественного анализа небольших выборок. Такой подход, по мнению авторов, позволяет выявить возможности, которые могут быстро стать массовыми.
В рамках проекта CRUX (Collaborative Research for Updating AI eXpectations) была проведена первая такая оценка. Агенту на основе ИИ поручили разработать и опубликовать простое iOS-приложение в магазине Apple App Store. Задача требовала не только написания кода, но и взаимодействия с экосистемой Apple, включая регистрацию разработчика, сборку и прохождение модерации.
Агент успешно справился с заданием, причём лишь одно ручное вмешательство потребовалось для исправления ошибки, которую, по мнению исследователей, можно было избежать. Это демонстрирует, что современные ИИ-системы уже способны выполнять многошаговые реальные проекты, которые ранее считались прерогативой человека.
Авторы работы подчёркивают, что open-world оценки могут служить ранним предупреждением о появлении новых возможностей задолго до того, как они станут широкодоступными. Они также дают рекомендации по дизайну и отчётности таких тестов, чтобы сообщество могло лучше отслеживать быстрое развитие ИИ.
Исследование опубликовано в репозитории arXiv и привлекает внимание специалистов, занимающихся оценкой и безопасностью искусственного интеллекта. Дальнейшие эксперименты в рамках CRUX планируется проводить регулярно.


