Модель Claude Fable 5 взломали за 72 часа, системный промпт опубликован

Модель Claude Fable 5 взломали за 72 часа, системный промпт опубликован

Нейросеть Claude Fable 5, позиционируемая как одна из наиболее защищённых фронтир-моделей, была взломана всего за 72 часа после старта исследования. Системный промпт модели оказался в открытом репозитории, что вызвало дискуссию в профессиональном сообществе.

По данным источника, атака была проведена в рамках исследования уязвимостей. Конкретные методы обхода защиты не раскрываются, однако сам факт успешного взлома демонстрирует, что даже передовые классификаторы не являются абсолютно непробиваемыми.

Особое внимание привлёк тот факт, что системный промпт — инструкция, задающая поведение модели, — был выложен публично. Это даёт возможность любому желающему изучить внутренние механизмы работы Claude Fable 5 и потенциально использовать их для создания альтернативных версий или атак.

Инцидент также поднимает вопрос о том, какие действия вендор может предпринимать с моделью без ведома пользователя. Если системный промпт может быть извлечён, то контроль над моделью после её выпуска становится менее надёжным.

Разработчики Claude пока не комментировали ситуацию. Предполагается, что уязвимость будет закрыта в ближайших обновлениях, однако сам прецедент уже привлёк внимание регуляторов и специалистов по кибербезопасности.

Эксперты отмечают, что подобные случаи подчёркивают необходимость более прозрачного аудита фронтир-моделей и пересмотра подходов к защите системных промптов. Для пользователей, строящих бизнес-решения на базе Claude Fable 5, это сигнал о возможных рисках.