Новый метод HARC защищает LLM от джейлбрейков без потери качества

Новый метод HARC защищает LLM от джейлбрейков без потери качества

Группа исследователей опубликовала на arXiv препринт, описывающий новый метод повышения безопасности больших языковых моделей (LLM). Метод получил название HARC (Harmfulness-And-Refusal Coupling) и направлен на защиту от джейлбрейков — атак, заставляющих модель генерировать вредоносный контент.

Ранее было установлено, что в выровненных LLM существуют отдельные направления в пространстве скрытых состояний, отвечающие за восприятие вредоносности и за отказ отвечать. Джейлбрейки успешно подавляют одно из этих направлений ещё до генерации ответа. HARC решает эту проблему, связывая оба направления как на этапе ввода, так и на этапе генерации.

По данным статьи, HARC не ухудшает общие способности модели и не вызывает чрезмерных отказов. В экспериментах метод показал лучший баланс между устойчивостью к атакам, сохранением функциональности и удобством использования среди шести контрольных методов, включая как методы обучения, так и инференса.

Эффективность HARC подтверждена на пяти семействах моделей и двух масштабах без настройки под конкретную архитектуру.