Новый метод атаки на языковые модели обходит защиту от вредных запросов
Языковые модели с защитой от вредных запросов training'ятся отказывать на опасные инструкции, но их поведение можно подавить, манипулируя внутренними представлениями. Существующие методы удаляют направление отказа из residual-потока, однако новая работа на arXiv переосмысливает этот процесс как атаку уклонения в латентном пространстве.
Авторы показали, что предыдущие подходы, по сути, проецируют активации модели на границу принятия решения линейного классификатора. Это означает, что уклонение останавливается на границе, не переводя модель полностью в режим согласия. Новый метод Controlled Latent-space Evasion (CLE) проталкивает представления дальше, с оптимизированной уверенностью, заставляя модель отвечать на запретный запрос.
CLE демонстрирует state-of-the-art результаты на 15 instruction-tuned, мультимодальных и рассуждающих моделях, превосходя как базовые ablation-методы, так и специализированные jailbreak-атаки. Эксперименты подтвердили универсальность подхода: он одинаково эффективен против моделей разных архитектур и размеров.
Работа не только объясняет успех предыдущих методов, но и выявляет их ключевое ограничение — остановку на границе. Это открывает путь к созданию более устойчивых защит, так как теперь известно, что для полного подавления отказа нужно не просто удалять направление, а активно сдвигать представления в область согласия.
Разработка особенно актуальна на фоне роста популярности больших языковых моделей в коммерческих продуктах. Возможность обойти защиту с помощью атаки в латентном пространстве подчёркивает необходимость глубокого анализа внутренней механики моделей для обеспечения их безопасного использования.


