MOOD: новый бенчмарк для обнаружения неочевидных сбоев безопасности LLM
Многие сбои в безопасности и выравнивании больших языковых моделей (LLM) происходят из-за внераспределенных (OOD) ситуаций — необычных запросов или ответов, которые разработчики не предвидели. Чтобы систематически изучать, как пайплайны мониторинга могут выявлять такие сбои, группа исследователей представила бенчмарк MOOD (Misalignment Out Of Distribution).
MOOD включает ограниченный тренировочный набор данных, на котором обучаются модели-мониторы, а также семь тестовых наборов с разнообразными сбоями выравнивания, выходящими за рамки тренировочного распределения. Это позволяет оценить способность систем мониторинга обобщать на новые, неожиданные случаи.
В ходе экспериментов выяснилось, что модели-охранники (классификаторы безопасности) часто не могут обобщить на OOD-примеры. Чтобы решить эту проблему, авторы предложили комбинировать модели-охранники с OOD-детекторами. Были протестированы четыре типа таких детекторов, и лучшая комбинация — модель-охранник с детектором на основе расстояния Махаланобиса и перплексии — повысила полноту (recall) с 39% до 45%.
Также установлены положительные скейлинговые тренды: добавление OOD-детекции дает больший прирост полноты, чем увеличение размера модели-охранника в 20 раз. Это говорит о том, что OOD-детекция может быть более эффективным способом улучшить мониторинг, чем просто наращивание вычислительных ресурсов.
Работа подчеркивает, что обнаружение внераспределенных данных должно стать ключевым компонентом систем мониторинга LLM, и закладывает основу для дальнейших исследований в этой важной области.


