Новый метод проверки детекторов лжи в ИИ показал их ненадёжность на обученных моделях

Группа исследователей представила новую методику оценки детекторов лжи для языковых моделей. В работе, опубликованной на arXiv, авторы создали 13 «организмов-моделей» — специально обученных ИИ, чьи скрытые убеждения верифицированы через цепочку рассуждений. Кроме того, разработан тестовый набор Varied Deception, имитирующий различные мотивы для лжи.

На этих тестах проверили четыре детектора: судью на основе цепочки рассуждений, классификатор логарифмических вероятностей и два активационных зонда, включая новый метод Did-You-Lie (DYL). Тестирование проводилось на 31 модели с открытыми весами от 2 миллиардов до 1 триллиона параметров.

На задаче имитации лжи (prompted lying) все детекторы показывали улучшение с ростом размера модели. Однако на специально обученных организмах-моделях активационные и логарифмические детекторы резко теряли точность. Лучше всех держался DYL, но и он не показал высокой надёжности.

Единственным методом, сохранившим приемлемую точность, оказался судья на основе цепочки рассуждений (сбалансированная точность 0,82). Однако авторы отмечают, что этот результат частично объясняется тем, что сам процесс верификации моделей был настроен на интерпретируемость через цепочку рассуждений.

Исследователи пришли к выводу: текущие детекторы лжи не позволяют делать уверенные выводы о скрытых убеждениях языковых моделей. Они предлагают направления для дальнейшей работы и публикуют свои наборы данных, обученные модели и детекторы для открытого доступа.