Новый метод HARC защищает LLM от джейлбрейков без потери качества

Группа исследователей опубликовала на arXiv препринт, описывающий новый метод повышения безопасности больших языковых моделей (LLM). Метод получил название HARC (Harmfulness-And-Refusal Coupling) и направлен на защиту от джейлбрейков — атак, заставляющих модель генерировать вредоносный контент.

Ранее было установлено, что в выровненных LLM существуют отдельные направления в пространстве скрытых состояний, отвечающие за восприятие вредоносности и за отказ отвечать. Джейлбрейки успешно подавляют одно из этих направлений ещё до генерации ответа. HARC решает эту проблему, связывая оба направления как на этапе ввода, так и на этапе генерации.

По данным статьи, HARC не ухудшает общие способности модели и не вызывает чрезмерных отказов. В экспериментах метод показал лучший баланс между устойчивостью к атакам, сохранением функциональности и удобством использования среди шести контрольных методов, включая как методы обучения, так и инференса.

Эффективность HARC подтверждена на пяти семействах моделей и двух масштабах без настройки под конкретную архитектуру.