BEAMS: новый бенчмарк для оценки ИИ в моделировании и симуляции

Международная инициатива BEAMS (Benchmarking and Evaluating AI for Modeling and Simulation) опубликовала первые результаты тестирования ИИ-инструментов для моделирования и симуляции. Проект направлен на создание открытых бенчмарков, которые помогут оценить способности ИИ в построении моделей, используемых для поддержки принятия решений.

В рамках BEAMS разработаны тесты для трех категорий: качественное построение моделей, количественное построение моделей и обсуждение моделей. В частности, оценивались навыки каузального перевода, итерации модели, причинно-следственного рассуждения, соответствия, объяснения поведения модели, предложения шагов построения и исправления ошибок.

При тестировании различных LLM в связке с движками проекта sd ai выявилась значительная вариативность результатов. Ни одна из крупных языковых моделей не показала доминирования во всех типах задач. Лучшие результаты модели демонстрировали в задачах обсуждения и базовых качественных операциях, тогда как причинно-следственное рассуждение и исправление количественных ошибок давались им хуже.

По мнению авторов, это подчеркивает важность учета специфики задач и компромиссов между скоростью и точностью при выборе ИИ-инструмента для моделирования. Инициатива использует открытую цифровую и организационную инфраструктуру, чтобы обеспечить прозрачность и широкий доступ к результатам.

В дальнейшем BEAMS планирует включить бенчмарки, учитывающие проблемы предвзятости и альтернативные точки зрения. Разработчики подчеркивают, что автоматизация моделирования должна дополнять, а не заменять человеческий опыт. Проект нацелен на ответственное и этичное развитие ИИ в этой области.

Исходный код тестов и инструментов доступен в открытом репозитории sd ai, что позволяет исследователям и разработчикам воспроизводить результаты и вносить свой вклад в совершенствование бенчмарков.