LLM-судьи негибки: новое исследование вскрыло проблемы оценки безопасности ИИ
Исследователи из опубликованной на arXiv работы «Safety is Contextual, LLM-Judges Are Not» показали, что модели-судьи, оценивающие безопасность других языковых моделей, обладают существенной инерцией в своих оценках. Несмотря на способность обучаться на новых примерах, они редко корректируют вердикт, если контекст или определение безопасности противоречат их внутренним представлениям.
Авторы проверили несколько популярных общих LLM (включая GPT-4 и Claude) и специализированные судейские модели. Оказалось, что все они демонстрируют схожую закономерность: при изменении контекстной информации или определении «безопасного» поведения модели-судьи в основном остаются при своём первоначальном мнении, если оно уже сформировано.
«LLM-судьи — единственный способ оценить безопасность в масштабе, — отмечают учёные. — Но их собственная надёжность исследована плохо. Мы обнаружили, что они слабо поддаются перенастройке под альтернативные стандарты безопасности».
Для эксперимента участники предоставляли моделям примеры, меняли сценарии и давали новые определения. В результате, даже если новая информация указывала на то, что ответ безопасен, ранее настроенная модель часто отвергала этот вывод, если он шёл вразрез с её priors.
Это означает, что на текущий момент доверять автоматической оценке безопасности без ручной валидации рискованно. Разработчикам придётся либо дорабатывать судейские модели, либо создавать принципиально новые методы контроля.
В сообществе AI-безопасности работа вызвала дискуссию: одни эксперты считают результаты ожидаемыми, другие — критическими для внедрения ИИ в чувствительные области.


