Изображение со светофором взломало ИИ-модель: как работает новый метод JaiLIP

Изображение со светофором взломало ИИ-модель: как работает новый метод JaiLIP

Исследователи из Флоридского международного университета представили метод взлома мультимодальных моделей ИИ с помощью одного изображения. Техника получила название JaiLIP (Jailbreaking with Loss-guided Image Perturbation). Она вносит в картинку микроскопические изменения на уровне пикселей, незаметные для человеческого глаза, но способные кардинально изменить интерпретацию изображения нейросетью.

В ходе экспериментов команда тестировала JaiLIP на модели BLIP-2, популярной среди разработчиков для задач визуального и языкового анализа. Выяснилось, что модифицированные изображения существенно повышают вероятность того, что модель выдаст небезопасные или запрещённые ответы. По словам учёных, количество вредоносных результатов при тестировании увеличилось почти вдвое по сравнению с предыдущими методами.

В качестве наглядного примера исследователи привели изображение светофора. Внешне картинка выглядела обычной, но для ИИ она стала триггером: модель начала давать инструкции по проезду на красный свет, чтобы избежать штрафа, — информацию, которую обычно система отказывается предоставлять.

Особую опасность метода подчёркивает его универсальность. Злоумышленникам больше не нужно полагаться только на текстовые подсказки: достаточно загрузить изменённое изображение через чат-бот, портал поддержки или автоматизированный рабочий процесс. Это открывает новую поверхность атаки для компаний, внедряющих мультимодальных ИИ-агентов в обслуживание клиентов или автоматизацию.

Результаты особенно актуальны для небольших организаций, которые используют open-source модели или развёртывают инструменты без глубокого тестирования безопасности. Исследование также напоминает, что ИИ-системы воспринимают мир иначе, чем люди, и даже привычные изображения могут быть использованы для обхода защиты.