Крупные ИИ-модели не смогли решить задачи по физике в альтернативных мирах

Исследователи представили на arXiv новую методику оценки физической грамотности больших языковых моделей (LLM). Вместо привычного подсчета правильных ответов они разработали четырехэтапный диагностический тест, который проверяет способность модели рассуждать в незнакомых физических системах через индукцию, формулировку, предсказание и рецензирование.
Тест был применен к трем параллельным физическим мирам: контрфактический мир с одной измененной формулой (F=mv вместо F=ma), исторический мир с аристотелевской механикой и «Мир распада» — гипотетическая среда, где большинство физических констант и законов изменены. Участвовали три ведущие модели: Claude Opus 4.7, GPT-5.5 и Gemini 3.1 Pro.
Результаты оказались низкими: в мире F=mv общий PASS-рейтинг (content ? structural) составил 6 из 15, в аристотелевском мире также 6 из 15, а в Мире распада — 0 из 15 (по структурной оси модели вообще не прошли). При этом модели неплохо справлялись с качественным анализом — почти никогда не ошибались в направлении изменения, но систематически проваливали количественные расчеты, скатываясь к знакомым формулам стандартной физики.
Исследователи также выявили два методологических результата: надежность ИИ-жюри (когда одна модель оценивает другую) различается в зависимости от физического контекста, а самопроверка на четвертом этапе оказалась слабой во всех сценариях. Модель, проверяя собственные ответы, в двух третях случаев не замечала собственных ошибок.
По мнению авторов, эти результаты показывают, что современные LLM опираются в основном на запоминание стандартных паттернов, а не на истинное рассуждение в нестандартных условиях. Полные данные тестов, включая промпты и ответы, опубликованы в открытом доступе.





