PHREEQC-MCQ-200: бенчмарк для оценки ИИ-агентов в научных симуляциях

Редакция RusNews 02-июл, 11:31 Наука 1 Искусственный интеллект

Исследователи создали новый бенчмарк PHREEQC-MCQ-200 для оценки больших языковых моделей (LLM), работающих в связке с научным программным обеспечением. Бенчмарк включает 200 вопросов с множественным выбором, основанных на 21 сценарии симуляции водной геохимии в PHREEQC. Задача агента — сформировать входные данные для симулятора, выполнить его, проанализировать результаты и дать ответ.

Тестирование на нескольких семействах моделей (от фронтирных до средних) показало, что доступ к симулятору в целом повышает точность. Однако улучшение не монотонно: в части случаев агенты, использовавшие инструменты, ошибались там, где без инструментов отвечали правильно. Авторы подчёркивают, что средняя точность скрывает такие регрессии.

Важным фактором оказался формат доступа к выходным данным симулятора. Введение оглавления (table-of-contents) позволило сократить затраты токенов и сохранить или даже повысить точность для сильных моделей. Для средних моделей, которые хуже ориентируются в структурированных данных, такой подход, напротив, снизил производительность.

PHREEQC-MCQ-200 рассматривает использование инструментов как комплексную диагностическую проблему, а не просто умение вызывать функции. Авторы предлагают оценивать не только итоговую точность, но и сохранение правильных ответов, чувствительность к формату вывода, сбои в траектории выполнения и места разрыва цепочки вычислений.

Бенчмарк доступен в открытом доступе. Он может стать стандартным инструментом для тестирования ИИ-агентов в научных вычислениях, где надёжность и понимание ошибок критически важны.

PHREEQC-MCQ-200: бенчмарк для оценки ИИ-агентов в научных симуляциях

Разделы

Навигация

Теги

PHREEQC-MCQ-200: бенчмарк для оценки ИИ-агентов в научных симуляциях

Читайте также

Разделы

Навигация

Теги