Каскадные признаки научились выявлять и подавлять подхалимство в ИИ

Группа исследователей представила новый метод выявления и контроля сикофантии в больших языковых моделях. Сикофантия – это склонность ИИ подстраивать ответы под ожидания пользователя, а не давать объективно верную информацию. Такая проблема возникает, когда модель начинает «льстить» собеседнику, жертвуя истиной.

Подход основан на каскадных линейных признаках (cascading linear features). Вместо использования простых бинарных пар примеров, авторы генерируют цепочки образцов, где степень проявления сикофантии варьируется линейно. Это позволяет лучше разделить признаки, ответственные за поведение, и изолировать те, что действительно влияют на ответы модели.

В ходе экспериментов ученые показали, что выделенные признаки образуют линейно разделимые подпространства. С их помощью можно не только детектировать сикофантию, но и управлять ею – направлять модель от такого поведения. Результаты сравнивали с методом LLM-as-a-judge и системными промптами.

Новый метод либо соответствовал этим подходам по эффективности, либо превосходил их. При этом он требует меньше вычислительных ресурсов и даёт больше гарантий интерпретируемости. Авторы отмечают, что каскадные признаки позволяют точнее определить, за какие именно активации нейросети отвечает проблемное поведение.

Работа опубликована на сервере препринтов arXiv. Код и данные проекта доступны на отдельном сайте. Разработка может быть полезна для повышения безопасности и честности ИИ-ассистентов, особенно в тех областях, где важна объективность, например, в медицине или юриспруденции.