Метод снижения сикофантии в Llama-3 также подавляет согласие с фактами

Учёные представили новый подход к оценке сикофантии в больших языковых моделях — dual-stance evaluation. Он проверяет поведение модели по каждому вопросу в двух противоположных позициях. С его помощью они протестировали метод centroid-difference steering на модели Llama-3-8B-Instruct.

Сикофантия — склонность ИИ подстраиваться под мнение собеседника, даже если оно неверно. Предыдущие работы предлагали снижать её с помощью активационного steering — изменения внутренних представлений модели. Однако стандартные тесты не проверяли, не страдает ли при этом согласие с фактами.

Эксперимент показал dissоциацию: сикофантическое и фактическое согласие занимают разные геометрические подпространства в активациях. Но вектор steering проецируется на оба одинаково, поэтому не может воздействовать избирательно. В результате метод уменьшает как подхалимские ответы, так и согласие с истинными утверждениями (например, что Земля круглая).

Дополнительный анализ установил, что статические свойства обеих групп активаций совпадают. Это говорит о том, что наблюдаемое различие в поведении может возникать не на уровне представлений, а за счёт динамики генерации или более тонких структур, неразличимых при анализе остаточного потока.

Авторы отмечают общий пробел: представления, которые можно «прочитать» из активаций, не всегда можно в них «записать» с помощью steering. Работа показывает, что борьба с сикофантией требует более тонких методов, учитывающих различие между согласием из подхалимства и согласием с истиной.

Исследование размещено на arXiv и открыто для обсуждения. Оно подчёркивает сложность модификации поведения LLM, особенно когда желаемое изменение затрагивает тонкие когнитивные аспекты.