Обучение с визуальной обратной связью: новый метод Visual-SDPO превосходит аналоги в создании диаграмм и слайдов
Крупные языковые модели, генерирующие код, всё чаще создают визуальные артефакты — диаграммы, веб-страницы и слайды. Однако до выполнения кода модель не видит итоговый рендер, из-за чего в артефактах возникают дефекты: наложение элементов, обрезанный текст, нарушенное выравнивание, низкий контраст и переполнение.
Чтобы решить эту проблему, группа исследователей предложила фреймворк Visual-SDPO (Self-Distillation Policy Optimization via Visual Feedback). Он использует визуальную обратную связь для самообучения: модель-учитель получает изображение готового артефакта как привилегированный контекст и передаёт знания модели-студенту, которая генерирует код без этой информации.
Особенность метода — поканальное взвешивание (Visual-Grounded Code Credit Weighting). Оно отслеживает каждый обнаруженный дефект до конкретных строк кода и усиливает сигнал обучения именно на этих участках. Это делает обратную связь не равномерной, а пространственно адресной.
Дополнительно в Visual-SDPO используется последовательный термин GRPO (Group Relative Policy Optimization) — он поощряет выполнимые и визуально качественные рендеры. Если код не выполнялся, модель всё равно учится, получая сообщение об ошибке как привилегированный контекст.
Метод протестировали на едином бэкбоне Qwen3-VL-8B-Instruct для генерации диаграмм, интерфейсов и слайдов. На бенчмарках ChartMimic, Design2Code и AeSlides Visual-SDPO превзошёл нулевой сценарий более чем на 10 абсолютных пунктов по основной метрике, а GRPO — минимум на 2,4 пункта. При этом обучение требовало меньше шагов, а инференс не увеличился.
Результаты показывают, что визуальная обратная связь может быть эффективным способом улучшить качество кода для графического контента без дополнительных затрат на этапе использования. Подробности — в статье на arXiv.


