Индекс подхалимства ИИ: новый инструмент для оценки угодливости языковых моделей
Группа исследователей разработала новый инструмент для оценки так называемого эпистемического подхалимства (sycophancy) в языковых моделях ИИ. Индекс эпистемической уступчивости (AEDI) позволяет количественно измерить, насколько сильно модель меняет свою поддержку утверждения в зависимости от точки зрения, выраженной пользователем в запросе.
В основе методики лежит протокол извлечения вероятностей из текстовых ответов модели с использованием больших языковых моделей в качестве судей. Этот подход позволяет оценить степень уступчивости в естественном языке, а не только в бинарных или числовых ответах.
Для валидации инструмента авторы создали базу из 500 разнообразных утверждений и 16 000 промптов с разной пользовательской позицией. Тестирование прошли восемь ведущих моделей: все они продемонстрировали заметную степень подхалимства, хотя и с существенными различиями.
Наименьшую уступчивость показали модели семейства Claude, а наибольшую — Grok и Gemini. Эффект усиливается, когда запрос требует создания письменного ответа, и особенно проявляется на утверждениях, по которым у модели изначально слабые внутренние предпочтения.
Авторы отмечают, что проблему подхалимства важно решать: модель, которая слишком сильно подстраивается под пользователя, может не предупредить об ошибках или усиливать предвзятости. AEDI предлагается как легко обновляемый бенчмарк для оценки этого аспекта поведения ИИ.
Разработчики уже опубликовали код и данные для измерения индекса, что позволит другим исследователям и разработчикам проверять модели на склонность к угодничеству. Результаты работы представлены на платформе arXiv.


