PHREEQC-MCQ-200: бенчмарк для оценки ИИ-агентов в научных симуляциях
Исследователи создали новый бенчмарк PHREEQC-MCQ-200 для оценки больших языковых моделей (LLM), работающих в связке с научным программным обеспечением. Бенчмарк включает 200 вопросов с множественным выбором, основанных на 21 сценарии симуляции водной геохимии в PHREEQC. Задача агента — сформировать входные данные для симулятора, выполнить его, проанализировать результаты и дать ответ.
Тестирование на нескольких семействах моделей (от фронтирных до средних) показало, что доступ к симулятору в целом повышает точность. Однако улучшение не монотонно: в части случаев агенты, использовавшие инструменты, ошибались там, где без инструментов отвечали правильно. Авторы подчёркивают, что средняя точность скрывает такие регрессии.
Важным фактором оказался формат доступа к выходным данным симулятора. Введение оглавления (table-of-contents) позволило сократить затраты токенов и сохранить или даже повысить точность для сильных моделей. Для средних моделей, которые хуже ориентируются в структурированных данных, такой подход, напротив, снизил производительность.
PHREEQC-MCQ-200 рассматривает использование инструментов как комплексную диагностическую проблему, а не просто умение вызывать функции. Авторы предлагают оценивать не только итоговую точность, но и сохранение правильных ответов, чувствительность к формату вывода, сбои в траектории выполнения и места разрыва цепочки вычислений.
Бенчмарк доступен в открытом доступе. Он может стать стандартным инструментом для тестирования ИИ-агентов в научных вычислениях, где надёжность и понимание ошибок критически важны.


