PhyDrawGen: нейросеть научилась генерировать физически корректные диаграммы по тексту
Современные нейросети умеют создавать визуально правдоподобные изображения, но при генерации физических диаграмм систематически нарушают законы физики: ошибаются в векторах сил, игнорируют законы сохранения и искажают геометрию. Новая разработка PhyDrawGen решает эту проблему, объединяя нейросетевой анализ с детерминированным соблюдением физических принципов.
Пайплайн PhyDrawGen работает в три этапа. Сначала большая языковая модель извлекает из текста задачи типизированный граф сцены. Затем детерминированный преобразователь переводит этот граф в планарный прямолинейный граф, кодируя баланс сил, оптические пути и топологию полей в виде точных геометрических примитивов. На финальной стадии тонко настроенная модель Qwen-VL запускает визуально обоснованный цикл «предложить — проверить» для итеративного исправления оставшихся нарушений.
Эффективность системы проверили на бенчмарке из 1 449 задач по механике, оптике и электромагнетизму. PhyDrawGen значительно превзошёл такие модели, как GPT-5-image, Gemini 2.5 Flash и Gemini 3 Pro, особенно в задачах с необычными объектами, где конкуренты чаще допускали ошибки.
Ключевое преимущество разработки — способность генерировать диаграммы, которые не только выглядят правдоподобно, но и полностью соответствуют физическим законам. Это открывает возможности для применения в образовании, автоматизированной подготовке учебных материалов и визуализации научных задач.
Статья с описанием PhyDrawGen опубликована на сервере препринтов arXiv. Как и любая предварительная публикация, она ожидает рецензирования научным сообществом, однако представленные результаты уже демонстрируют многообещающий подход к решению давней проблемы ИИ в физике.



