VLM-Safe-RL: предвидение коллизий с помощью замороженных моделей зрения

Обучение с подкреплением (RL) в реальных сценариях, таких как автогонки или управление роботами, сталкивается с проблемой безопасности: стандартные методы наказывают агента только после столкновения, что на высоких скоростях часто поздно. Новая работа, опубликованная на arXiv, предлагает решение — VLM-Safe-RL, интегрирующий замороженные vision-language модели в процессе обучения.

Фреймворк состоит из четырёх ключевых компонентов. Decoupled Dual-Path CLIP разделяет потоки награды и цены в соответствии с CMDP. VLM-Lagrange использует предсказания VLM как anticipatory cost для корректировки множителя Лагранжа. Confidence Gating вычисляет байесовски-оптимальный вес для этой цены. Всё вместе реализовано в алгоритме VLMPPOLag.

Основные испытания проводились на симуляторе Safety-Gymnasium FormulaOne L2. Из шести алгоритмов (включая PPO-Lagrangian, CPO и другие) только VLMPPOLag с Confidence Gating одновременно сохранил высокую награду (около 40) и уложился в бюджет цены на большинстве прогонов. Остальные методы не справились хотя бы с одним из требований.

Метод также показал обобщаемость на другие среды: на MetaDrive Medium частота катастроф снизилась с 41% до 26% (уверенный диапазон — 95% бутстрап-интервал). Положительные результаты получены и на Bullet Safety-Gym. Однако авторы честно отмечают, что на MetaDrive Easy и Hard, а также с моделью Qwen2-VL улучшений не было, а неудача на Hard связана с проблемой регуляции лагранжиана, а не с сигналом VLM.

По мнению авторов, это первая работа, использующая замороженные VLM-сигналы в качестве anticipate-цены внутри обновления лагранжиана в CMDP. Подход открывает путь к более безопасным системам RL, способным предвидеть опасность, а не просто реагировать на неё.