ThousandWorlds: бенчмарк для машинного обучения в эмуляции климата экзопланет

Поиск жизни за пределами Солнечной системы зависит от обнаружения слабых сигнатур в атмосферах экзопланет. Интерпретация этих сигнатур требует понимания климата планеты: одно и то же вещество может указывать на жизнь на одной планете и на абиотические процессы на другой. Глобальные климатические модели (GCM) дают такое понимание, но каждая симуляция требует до миллионов ядро-часов и существенного участия экспертов.

Чтобы снять это узкое место, исследователи разработали бенчмарк ThousandWorlds, предназначенный для эмуляции климата экзопланет с помощью машинного обучения. Датасет включает около 1800 симуляций от пяти различных GCM, которые отображают восемь параметров планет в трёхмерные поля атмосферы, включая температуру, влажность, ветры, облака и радиацию.

Бенчмарк содержит три вложенных набора задач возрастающей сложности: регрессия по одной модели, регрессия по нескольким моделям с полными наблюдениями и регрессия по нескольким моделям с пропусками в данных. Для оценки предложены два протокола: один для ранжирования методов, другой — для измерения производительности относительно расхождения между самими GCM.

Авторы протестировали семь базовых подходов — от простых методов до глубокого обучения и гауссовских процессов. Лучшие результаты показали методы на основе гауссовских процессов, что указывает на то, что ThousandWorlds создаёт режим, в котором стандартное глубокое обучение пока не достигает успеха.

Набор данных доступен по ссылке DOI: 10.57967/hf/8695, а код — на GitHub. Ожидается, что бенчмарк поможет ускорить разработку эмуляторов, которые позволят обрабатывать данные будущих телескопов, таких как JWST и ELT, и приблизят ответ на вопрос о существовании жизни за пределами Земли.