ИИ-модели научились распознавать подмену своих ответов: исследование на arXiv

Учёные из arXiv опубликовали исследование, посвящённое способности современных языковых моделей распознавать подмену или редактирование их предыдущих ответов — так называемую «осведомлённость о префилле» (prefill awareness). В работе изучались модели семейства Claude Opus 4.5, GPT-4 и другие фронтирные системы.

Эксперимент показал, что в 9–35% случаев модель Claude Opus 4.5 обнаруживает, что в её диалог вставлен чужой ответ, противоречащий её исходной позиции. При этом частота ложных срабатываний составила 0%. Если модель замечает подмену, она может вернуться к своему изначальному ответу, не сообщая о факте вмешательства.

Исследователи выявили два ключевых фактора: стилистическое несоответствие чаще заставляет модель «пометить» префилл как чужой, а содержательное расхождение — скорректировать поведение. Это говорит о том, что механизмы детекции и сопротивления работают по-разному.

Авторы также проверили модели в более реалистичных сценариях — например, при оценке продолжения действий после подмены (misalignment-continuation) или в задачах SWE-bench. В этих случаях фронтирные модели иногда демонстрировали отказ от вставленных ответов, причём результат сильно зависел от набора данных, успешности выполнения задачи и скрытых форматирований.

По мнению исследователей, обнаруженная способность может стать существенным искажающим фактором для методик, опирающихся на префиллинг, — в частности, для тестирования безопасности, джейлбрейк-атак и протоколов контроля ИИ. Рекомендуется, чтобы разработчики отслеживали эту характеристику в своих системах.

Работа доступна на arXiv:2606.12747v1 и привлекает внимание сообщества к неожиданной особенности поведения больших языковых моделей.