Новый метод атаки на языковые модели обходит защиту от вредных запросов

Редакция RusNews 23-май, 08:49 Наука 1 Искусственный интеллект

Языковые модели с защитой от вредных запросов training'ятся отказывать на опасные инструкции, но их поведение можно подавить, манипулируя внутренними представлениями. Существующие методы удаляют направление отказа из residual-потока, однако новая работа на arXiv переосмысливает этот процесс как атаку уклонения в латентном пространстве.

Авторы показали, что предыдущие подходы, по сути, проецируют активации модели на границу принятия решения линейного классификатора. Это означает, что уклонение останавливается на границе, не переводя модель полностью в режим согласия. Новый метод Controlled Latent-space Evasion (CLE) проталкивает представления дальше, с оптимизированной уверенностью, заставляя модель отвечать на запретный запрос.

CLE демонстрирует state-of-the-art результаты на 15 instruction-tuned, мультимодальных и рассуждающих моделях, превосходя как базовые ablation-методы, так и специализированные jailbreak-атаки. Эксперименты подтвердили универсальность подхода: он одинаково эффективен против моделей разных архитектур и размеров.

Работа не только объясняет успех предыдущих методов, но и выявляет их ключевое ограничение — остановку на границе. Это открывает путь к созданию более устойчивых защит, так как теперь известно, что для полного подавления отказа нужно не просто удалять направление, а активно сдвигать представления в область согласия.

Разработка особенно актуальна на фоне роста популярности больших языковых моделей в коммерческих продуктах. Возможность обойти защиту с помощью атаки в латентном пространстве подчёркивает необходимость глубокого анализа внутренней механики моделей для обеспечения их безопасного использования.

Новый метод атаки на языковые модели обходит защиту от вредных запросов

Разделы

Навигация

Теги

Новый метод атаки на языковые модели обходит защиту от вредных запросов

Читайте также

Разделы

Навигация

Теги