DualSelect: совместный выбор задач и референсов для безопасности LLM
Исследователи из arXiv представили новый метод DualSelect, предназначенный для сохранения безопасности при тонкой настройке больших языковых моделей (LLM). Тонкая настройка на предметных данных может ухудшить усвоенное моделью безопасное поведение, и существующие подходы не всегда эффективны.
Традиционные методы используют фиксированные референсы безопасности, глобальные ограничения или одностороннюю фильтрацию задач. Однако диагностика показала, что обновления задачи затрагивают разные ограничения безопасности, что побудило к созданию DualSelect — совместного подхода к выбору релевантных референсов и совместимых задач.
DualSelect обновляет обусловленные задачей референсы безопасности перед фильтрацией целых образцов задач, совместимых с новым направлением референса. В основе лежит минимаксный взгляд: метод выбирает референсы безопасности с высокими потерями сохранения и конфликтом задач, а также совместимые образцы задач с помощью энтропийно-регуляризованных суррогатов, ленивого обновления референсов и градиентной коррекции.
Эксперименты на LLM размером от 1 до 8 миллиардов параметров показали, что DualSelect сохраняет безопасность без потери полезности. По оценке судьи REDORCA, средний показатель безопасности (Safety Avg.) улучшился минимум на 5,10 балла по сравнению с сильнейшим бэйзлайном. DualSelect также стабильно показывает лучшие результаты по Safety Avg. среди разных судей при умеренных вычислительных затратах.
Разработчики отмечают, что такой подход распространяется и на задачи непрерывного обучения с сохранением знаний. DualSelect может стать важным инструментом для безопасного применения LLM в различных сценариях тонкой настройки.


