Новый метод снижает 'налог безопасности' в LLM без потери способности рассуждать
Исследователи опубликовали в архиве arXiv работу, посвящённую проблеме выравнивания безопасности больших языковых моделей (LLM). Они предложили новый подход под названием OPSA (On-Policy Self-Distillation), который позволяет снизить так называемый «налог безопасности» — ухудшение способности модели к рассуждениям при обучении защите от вредоносных запросов.
В ходе выравнивания безопасности модели часто сталкиваются с распределённым рассогласованием: обучение на демонстрациях, созданных человеком или внешними моделями, не полностью соответствует собственному распределению модели. Это ведёт к потере производительности на обычных задачах. Авторы работы выявили, что off-policy обучение является второстепенным источником этого налога, и предложили использовать on-policy самодистилляцию.
Метод OPSA заключается в том, что модель генерирует собственные траектории и получает плотный токеновый KL-контроль от замороженной копии той же модели (учителя), которая дополнительно имеет привилегированный контекст безопасности. Учитель должен быть безопаснее, чем траектория ученика. Для настройки этого процесса вводится критерий «teacher flip rate» — частота, с которой привилегированный контекст превращает опасный ответ ученика в безопасный.
Эксперименты проводились на двух семействах моделей рассуждений (R1-Distill и Qwen3) в пяти масштабах. OPSA показал более сильный компромисс между безопасностью и рассуждениями по сравнению с off-policy самодистилляцией и дистилляцией с внешним учителем при равных объёмах данных и полной тонкой настройке всех параметров.
Наилучшие улучшения достигнуты на небольших моделях: +8,85 балла на R1-Distill-1.5B и +5,49 балла на Qwen3-0.6B. Прирост сохранялся при разных размерах обучающих наборов и при адаптивных джейлбрейк-оценках. Анализ на уровне токенов показал, что OPSA концентрирует обновления на ранних токенах, связанных с решением о соблюдении требований, что объясняет улучшение безопасности при сохранении рассуждений.
Таким образом, новый метод предлагает эффективный способ уменьшения отрицательного влияния выравнивания безопасности на рассуждающие способности LLM, особенно актуальный для моделей с ограниченным числом параметров. Результаты могут быть полезны для разработки более безопасных и умных ассистентов.


