Исследование: самооценки ИИ-моделей предсказывают поведение лишь в определённых условиях

Новое исследование, опубликованное на arXiv, показало, что способность анкет (self-reports) предсказывать поведение больших языковых моделей (LLM) сильно ограничена. Учёные провели серию экспериментов с 11 передовыми моделями, включая GPT-4 и Claude, и выявили ключевые условия, при которых самооценки ИИ коррелируют с его действиями.

Ранее специалисты фиксировали расхождение между ответами моделей на вопросы о себе и их реальным поведением. Однако авторы новой работы считают, что проблема в инструментах: опора на «Большую пятёрку» (Big 5), измеряющую общие черты личности, неэффективна даже для людей. Вместо этого они применили Теорию запланированного поведения (TPB), которая оценивает намерения совершить конкретное действие.

Эксперименты показали, что в рамках одного диалога TPB даёт согласованность на уровне человеческой — то есть по ответам модели можно точно предсказать её следующие решения. «Большая пятёрка» такой точности не обеспечивает. При этом если сессии разрозненны, согласованность сохраняется только для тех типов поведения, которые не зависят от немедленного контекста — например, для имплицитных предубеждений, сформированных обучением.

Когда же поведение сильно зависит от текущего запроса (как в случае с сикофантией — стремлением угодить пользователю), прогнозы по анкетам перестают работать. Интересно, что назначение модели личности (persona prompting) делает ответы более последовательными в разных беседах, но не улучшает соответствие реальным поступкам.

Авторы делают вывод: для безопасного развёртывания ИИ нужны не общие личностные тесты, а узкоспециализированные опросники, привязанные к конкретным задачам и контексту. Простой психометрический скрининг моделей может вводить в заблуждение, если не учитывать эти нюансы.

Результаты подчёркивают, что доверять заявлениям ИИ о собственных «чертах характера» стоит с осторожностью — они не всегда отражают реальное поведение системы в новых условиях.