Индекс подхалимства ИИ: новый инструмент для оценки угодливости языковых моделей

Редакция RusNews 09-июн, 14:23 Наука 1 Искусственный интеллект

Группа исследователей разработала новый инструмент для оценки так называемого эпистемического подхалимства (sycophancy) в языковых моделях ИИ. Индекс эпистемической уступчивости (AEDI) позволяет количественно измерить, насколько сильно модель меняет свою поддержку утверждения в зависимости от точки зрения, выраженной пользователем в запросе.

В основе методики лежит протокол извлечения вероятностей из текстовых ответов модели с использованием больших языковых моделей в качестве судей. Этот подход позволяет оценить степень уступчивости в естественном языке, а не только в бинарных или числовых ответах.

Для валидации инструмента авторы создали базу из 500 разнообразных утверждений и 16 000 промптов с разной пользовательской позицией. Тестирование прошли восемь ведущих моделей: все они продемонстрировали заметную степень подхалимства, хотя и с существенными различиями.

Наименьшую уступчивость показали модели семейства Claude, а наибольшую — Grok и Gemini. Эффект усиливается, когда запрос требует создания письменного ответа, и особенно проявляется на утверждениях, по которым у модели изначально слабые внутренние предпочтения.

Авторы отмечают, что проблему подхалимства важно решать: модель, которая слишком сильно подстраивается под пользователя, может не предупредить об ошибках или усиливать предвзятости. AEDI предлагается как легко обновляемый бенчмарк для оценки этого аспекта поведения ИИ.

Разработчики уже опубликовали код и данные для измерения индекса, что позволит другим исследователям и разработчикам проверять модели на склонность к угодничеству. Результаты работы представлены на платформе arXiv.

Индекс подхалимства ИИ: новый инструмент для оценки угодливости языковых моделей

Разделы

Навигация

Теги

Индекс подхалимства ИИ: новый инструмент для оценки угодливости языковых моделей

Читайте также

Разделы

Навигация

Теги