Малые языковые модели научились предсказывать успех научных идей, обогнав GPT-5

Современные языковые модели ускоряют научные исследования, генерируя гипотезы и даже реализуя их, однако проверка сотен AI-идей требует огромных ресурсов. Новая работа, представленная на arXiv (2605.21491), предлагает решение: обучить модели предсказывать успех идеи до проведения экспериментов.

Исследователи поставили задачу сравнительного эмпирического прогнозирования: для заданной научной цели и двух кандидатных идей модель должна выбрать ту, которая даст лучший результат на реальных тестах. Для обучения был собран набор данных из 11 488 пар идей на основе системы PapersWithCode, где зафиксированы объективные исходы.

Первоначальные попытки использовать готовые модели с 8 млрд параметров показали точность всего около 30%. Однако после применения supervised fine-tuning (SFT) точность резко выросла до 77,1%, что значительно превзошло показатель GPT-5 (61,1%). Альтернативный метод — reinforcement learning with verifiable rewards (RLVR) — позволил достичь 71,35% с возможностью интерпретируемых обоснований.

Дополнительные тесты на устойчивость к поверхностным эвристикам и на независимых данных (в том числе кросс-доменных временных срезах) подтвердили робастность модели. Это говорит о том, что компактные модели не просто запоминают шаблоны, а действительно учатся оценивать научную ценность идей.

Результаты демонстрируют, что вычислительно эффективные малые языковые модели могут служить объективными верификаторами, способными снизить необходимость в дорогих экспериментах на этапе отбора гипотез. Это открывает масштабируемый путь к автономному научному открытию, где AI не только генерирует идеи, но и самостоятельно отбирает наиболее перспективные.