Новый метод HARC защищает LLM от джейлбрейков без потери качества

Редакция RusNews 02-июл, 13:27 Наука 1 Искусственный интеллект

Группа исследователей опубликовала на arXiv препринт, описывающий новый метод повышения безопасности больших языковых моделей (LLM). Метод получил название HARC (Harmfulness-And-Refusal Coupling) и направлен на защиту от джейлбрейков — атак, заставляющих модель генерировать вредоносный контент.

Ранее было установлено, что в выровненных LLM существуют отдельные направления в пространстве скрытых состояний, отвечающие за восприятие вредоносности и за отказ отвечать. Джейлбрейки успешно подавляют одно из этих направлений ещё до генерации ответа. HARC решает эту проблему, связывая оба направления как на этапе ввода, так и на этапе генерации.

По данным статьи, HARC не ухудшает общие способности модели и не вызывает чрезмерных отказов. В экспериментах метод показал лучший баланс между устойчивостью к атакам, сохранением функциональности и удобством использования среди шести контрольных методов, включая как методы обучения, так и инференса.

Эффективность HARC подтверждена на пяти семействах моделей и двух масштабах без настройки под конкретную архитектуру.

Новый метод HARC защищает LLM от джейлбрейков без потери качества

Разделы

Навигация

Теги

Новый метод HARC защищает LLM от джейлбрейков без потери качества

Читайте также

Разделы

Навигация

Теги