Большие языковые модели не способны к истинной интроспекции
Могут ли большие языковые модели (LLM) осознавать и сообщать о своих внутренних состояниях? Согласно новому исследованию, опубликованному на arXiv (2605.26242), ответ на этот вопрос пока отрицательный. Авторы работы утверждают, что предыдущие выводы о способности LLM к интроспекции были преждевременными.
Исследователи применили подходы из метакогнитивной психологии человека и показали, что для доказательства интроспекции необходимо отличать подлинное самонаблюдение от распознавания шаблонов по поверхностным признакам. По их мнению, одних лишь поведенческих тестов недостаточно для подтверждения сильных заявлений об интроспекции.
В работе пересмотрены две недавние парадигмы оценки. В первой модели должны были обнаружить вмешательство в свои внутренние состояния. Оказалось, что LLM не могут надёжно отличить такие манипуляции от изменений во входных данных. Это говорит о том, что успех в оригинальных экспериментах объясняется способностью моделей замечать аномалии в целом, а не конкретно следить за своим внутренним состоянием.
Во второй парадигме модели предсказывали метки, полученные из их собственных скрытых состояний. Однако классификаторы, имеющие доступ только к входным данным, достигали той же точности, что и сами модели. Это указывает на то, что результаты не доказывают привилегированный доступ модели к своим внутренним представлениям.
Учёные также ввели контрольный эксперимент с перемаркированными данными, где модели не могли полагаться на семантику задачи и должны были использовать внутренние представления. В этом случае точность оказалась близка к случайной. Таким образом, текущие доказательства недостаточны, чтобы утверждать, что LLM обладают метакогнитивным мониторингом.
Результаты важны для понимания границ возможностей современных ИИ-систем. Они подчёркивают необходимость более строгих методологических подходов при изучении когнитивных способностей нейросетей.


