Ученые с помощью ИИ измерили границы воспроизводимости астрофизических исследований
Группа астрофизиков и специалистов по информатике предложила новый подход для количественной оценки воспроизводимости научных методов. Работа, опубликованная на платформе arXiv, сочетает крупные языковые модели (LLM) с аппаратом теории информации, чтобы выяснить, насколько полно описание эксперимента позволяет восстановить его результаты.
Метод основан на вычислении энтропии Шеннона и расхождения Йенсена — Шеннона для распределений вероятностей, генерируемых LLM при чтении текста. Чем выше энтропия, тем больше различаются возможные реализации алгоритма, то есть тем хуже текст задаёт однозначный способ действия.
В качестве тестового примера авторы использовали задачу спектральной реконструкции транснептуновых объектов (ТНО) по данным разреженной фотометрии. Они подавали на вход моделям разные фрагменты статьи — только заголовок, аннотацию и полный раздел методов — и сравнивали полученные варианты алгоритмов.
Результаты показали, что добавление текста действительно помогает уточнить общую структуру метода, но не устраняет разброс в конкретных реализациях. Учёные назвали это явление «энтропийным порогом» (entropy floor): даже при исчерпывающем описании остаётся множество различных реализаций, совместимых с текстом.
При попытке преобразовать восстановленные алгоритмы в исполняемые конвейеры выяснилось, что LLM легко воспроизводят основную функциональность, но систематически упускают неявное экспертное знание, необходимое для строгой научной калибровки. Именно это tacit knowledge, по мнению авторов, и является главным источником невоспроизводимости.
Исследователи подчёркивают, что LLM можно использовать как инструмент нулевого выстрела (zero-shot) для аудита прозрачности методологии. Такой диагностический тест помогает авторам заранее выявить пробелы в описании, которые могут помешать воспроизведению результатов.
Работа вносит вклад в дискуссию о кризисе воспроизводимости в науке и предлагает практический способ повысить качество публикаций. Астрофизика, с её сложными цепочками обработки данных, особенно нуждается в подобных инструментах контроля.





