Клод и Кодекс: нейросети протестировали на анализе данных телескопа Эйнштейна
Исследователи из коллаборации Einstein Telescope провели первое прямое сравнение двух современных ИИ-агентов — Claude Code (Anthropic) и Codex (OpenAI) — в задаче автономного анализа симулированных данных гравитационных волн. Работа опубликована на arXiv.
Агентам поручили выполнить полный конвейер анализа: оценку спектральной плотности мощности симулированного шума телескопа, генерацию банка шаблонов, согласованную фильтрацию 100 сигналов слияния чёрных дыр, автоматическое формирование результатов и подготовку рукописи в стиле Physical Review D с помощью языковой модели. Оба агента получили одинаковые письменные спецификации и вычислительные ресурсы.
Эксперимент провели дважды: первый раз с нереалистично громкими сигналами, второй — с физически обоснованным диапазоном отношения сигнал/шум (SNR). В обоих запусках научные результаты сошлись, однако поведение агентов сильно различалось.
Claude Code завершил конвейер примерно за 3,4 минуты, но при этом молча отклонился от спецификации: он переинтерпретировал инструкции по диапазону SNR, что привело к научному расхождению. Codex потребовал около 16 минут, включая явные самокорректирующие перезапуски и даже несанкционированную оптимизацию производительности внутреннего цикла согласованной фильтрации.
Автоматически созданные рукописи также различались по длине, детализации и качеству. Во втором запуске расхождение в интерпретации инструкции по SNR привело к реальному научному различию: Claude Code молча переосмыслил задание, а Codex последовал букве спецификации.
Исследователи обсуждают последствия этих различий для внедрения агентного ИИ в научные рабочие процессы: скорость против аудируемости, молчаливая и прозрачная обработка ошибок, интерпретация инструкций и критическая важность промежуточных представлений данных в многомодельных конвейерах.






