LLM-судьи негибки: новое исследование вскрыло проблемы оценки безопасности ИИ

Редакция RusNews 09-июн, 13:50 Наука 1 Искусственный интеллект

Исследователи из опубликованной на arXiv работы «Safety is Contextual, LLM-Judges Are Not» показали, что модели-судьи, оценивающие безопасность других языковых моделей, обладают существенной инерцией в своих оценках. Несмотря на способность обучаться на новых примерах, они редко корректируют вердикт, если контекст или определение безопасности противоречат их внутренним представлениям.

Авторы проверили несколько популярных общих LLM (включая GPT-4 и Claude) и специализированные судейские модели. Оказалось, что все они демонстрируют схожую закономерность: при изменении контекстной информации или определении «безопасного» поведения модели-судьи в основном остаются при своём первоначальном мнении, если оно уже сформировано.

«LLM-судьи — единственный способ оценить безопасность в масштабе, — отмечают учёные. — Но их собственная надёжность исследована плохо. Мы обнаружили, что они слабо поддаются перенастройке под альтернативные стандарты безопасности».

Для эксперимента участники предоставляли моделям примеры, меняли сценарии и давали новые определения. В результате, даже если новая информация указывала на то, что ответ безопасен, ранее настроенная модель часто отвергала этот вывод, если он шёл вразрез с её priors.

Это означает, что на текущий момент доверять автоматической оценке безопасности без ручной валидации рискованно. Разработчикам придётся либо дорабатывать судейские модели, либо создавать принципиально новые методы контроля.

В сообществе AI-безопасности работа вызвала дискуссию: одни эксперты считают результаты ожидаемыми, другие — критическими для внедрения ИИ в чувствительные области.

LLM-судьи негибки: новое исследование вскрыло проблемы оценки безопасности ИИ

Разделы

Навигация

Теги

LLM-судьи негибки: новое исследование вскрыло проблемы оценки безопасности ИИ

Читайте также

Разделы

Навигация

Теги