Британский AI Security Institute взломал ChatGPT за 6 часов: найден универсальный обход защиты

Британский государственный институт AI Security Institute (AISI), занимающийся поиском уязвимостей в мощных ИИ-моделях, продемонстрировал высокую эффективность. Как сообщает The New York Times, команде из ста специалистов хватило шести часов, чтобы найти универсальный обход защиты новой GPT-5.5 в ChatGPT.
Суть уязвимости: один специально сконструированный промпт позволял обойти все ограничения модели и получить доступ к опасным киберзапросам. Речь идет не только о прямых угрозах, но и о сложных многоходовых агентных сценариях, которые могут быть использованы для проведения кибератак.
До этого AISI уже находил серьезные уязвимости в других популярных ИИ-моделях. В частности, проблемы были выявлены в Claude от Anthropic, Gemini от Google, а также в закрытой модели Mythos. Последнюю компания Anthropic в апреле решила не выпускать публично именно из-за высоких рисков кибератак.
Таким образом, работа AISI подчеркивает важность независимого тестирования безопасности ИИ. Несмотря на то что институт не имеет полномочий принуждать компании к исправлению уязвимостей, его находки помогают разработчикам заранее устранять критические проблемы.
На данный момент неизвестно, исправила ли OpenAI обнаруженную уязвимость в GPT-5.5, однако подобные инциденты подтверждают, что даже самые современные модели все еще уязвимы для целенаправленных атак. Регулярный аудит безопасности со стороны сторонних организаций становится обязательным элементом развития ИИ-индустрии.







