REVELIO: инструмент для поиска критических сбоев в Vision-Language моделях
Группа исследователей разработала систему REVELIO, предназначенную для систематического поиска интерпретируемых сбоев в моделях, объединяющих обработку зрения и языка (Vision-Language Models, VLMs). Такие модели всё чаще используются в критических с точки зрения безопасности приложениях, включая автономное вождение и робототехнику, однако их сложность делает уязвимости труднообнаружимыми.
VLMs демонстрируют высокие способности к обобщению и решают широкий спектр задач без специальной адаптации. В то же время в определённых реальных ситуациях они могут совершать катастрофические ошибки — это так называемые failure modes. Разработчики REVELIO определяют такой сбой как комбинацию интерпретируемых, релевантных для домена концептов (например, близость пешехода или неблагоприятные погодные условия), при которых модель систематически ведёт себя некорректно.
Поиск таких комбинаций — задача с экспоненциально большим дискретным пространством. REVELIO решает её с помощью двух методов: диверсифицирующего beam search для эффективного картирования области сбоев и стратегии выборки на основе гауссовского процесса (Thompson Sampling) для более широкого исследования сложных сценариев.
Применение REVELIO к автономному вождению выявило уязвимости, связанные со слабой пространственной ориентацией моделей и неспособностью учитывать крупные препятствия. В симулированных средах это приводило к рекомендациям, которые заканчивались авариями.
В задачах домашней робототехники VLMs либо пропускали опасные ситуации, либо, наоборот, проявляли излишнюю осторожность, генерируя ложные срабатывания и снижая эффективность работы.
Авторы подчёркивают, что выявленные сценарии интерпретируемы и структурированы, что даёт практические ориентиры для целенаправленного повышения безопасности моделей. Работа опубликована на платформе arXiv и предлагает новый подход к верификации мультимодальных AI-систем.


