Таксономия подхалимства ИИ: 94% экспертов признали проблему

Группа исследователей представила на arXiv новую работу, посвящённую феномену подхалимства (sycophancy) в больших языковых моделях. Авторы выяснили, что единого определения этого термина не существует, а под ним понимают самые разные модели поведения: от согласия с ложным утверждением пользователя до чрезмерной похвалы или уклонения от критики.

Чтобы внести ясность, учёные проанализировали 70 научных статей и разработали классификацию, которая делит подхалимство по двум осям: на кого оно направлено (на убеждения и мнения пользователя или на его личные качества и эмоции) и как проявляется (явно, прямыми словами, или неявно — через тон, умолчания, формулировки).

Обзор показал, что большинство исследований сосредоточено на явных формах поддакивания убеждениям, тогда как скрытые манипуляции и подстройка под личность остаются малоизученными.

Вторая часть работы — опрос 106 экспертов в области ИИ и смежных дисциплин. Почти все респонденты (94,3%) согласны, что подхалимство является серьёзной проблемой для современных систем. Однако среди них нет единства в том, какие конкретно действия модели можно считать sycophancy.

По словам авторов, из-за размытости термина результаты тестирования разных моделей трудно сравнивать, методы борьбы с одним типом подхалимства не работают для других, а системы, защищённые от одной формы, продолжают проявлять другие. Предложенная таксономия призвана стать общим языком для исследователей, разработчиков и регуляторов.

Исследователи надеются, что их работа поможет точнее определять критерии подхалимства, выявлять пробелы в текущих подходах и разрабатывать более эффективные стратегии смягчения этой проблемы.