Collider-Bench: новый бенчмарк для ИИ по воспроизведению экспериментов LHC

Автономные ИИ-агенты на основе больших языковых моделей всё чаще применяются для сложных задач с использованием инструментов. Однако существующие бенчмарки редко отражают всю сложность реальной научной работы. Для заполнения этого пробела группа исследователей представила Collider-Bench — бенчмарк, оценивающий способность ИИ-агентов воспроизводить экспериментальные анализы с Большого адронного коллайдера (LHC).

Каждое задание в Collider-Bench требует от агента превратить опубликованный анализ в исполняемый конвейер симуляции и отбора событий, а затем предсказать выходы событий в заданных сигнальных областях. При этом агенты могут использовать только открытые статьи и общедоступное научное программное обеспечение. Это приближает их к реальной работе учёных, которые часто сталкиваются с неполнотой документации и необходимостью физической интуиции.

Оценка проводится по двум направлениям. Количественно применяются стандартные метрики для гистограмм, которые дают непрерывную оценку точности без заранее написанных критериев. Дополнительно используется LLM-судья, который анализирует код и полный сеанс работы, чтобы выявить качественные сбои, такие как фабрикации, галлюцинации и дублирования. Также фиксируются вычислительные затраты каждого агента на задачу.

Начальная версия бенчмарка включает набор задач, основанных на реальных поисках LHC. Вместе с ним исследователи предоставляют контейнеризированную песочницу и инструменты для симуляции событий. Это позволяет легко разворачивать среду и повторять эксперименты.

В тестировании участвовали несколько общих кодирующих агентов разного уровня. Результаты показали, что в среднем ни один агент не превосходит надёжно решение с участием физика-человека в контуре. Хотя некоторые агенты демонстрируют частичные успехи, до полной автономной репродукции сложных анализов пока далеко.

Создатели Collider-Bench отмечают, что бенчмарк отражает реальную проблему воспроизводимости в науке: внутреннее ПО экспериментальных коллабораций лишь приблизительно соответствует открытому инструментарию, а в статьях неизбежно опускаются детали реализации. Таким образом, бенчмарк не только проверяет ИИ, но и стимулирует развитие более надёжных и интерпретируемых моделей для научных приложений.