Выявление причинных смещений в генеративном ИИ: новый метод учёных

Системы на базе ИИ всё чаще применяются в ответственных областях, что вызывает вопросы о справедливости и сохранении демографических неравенств. В этом контексте причинный вывод предложен как основа для оценки смещений, поскольку он связывает наблюдаемые различия с underlying механизмами и согласуется с юридическими подходами к дискриминации.

Предыдущие работы по причинной справедливости фокусировались на стандартном машинном обучении, где модель строит один предиктор для целевой переменной, наследуя причинные механизмы из реального мира. Генеративный ИИ устроен сложнее: такие модели могут семплировать из произвольных условных распределений по любому набору переменных, фактически формируя собственные представления обо всех причинных связях.

Авторы новой статьи на arXiv формализовали задачу причинной справедливости для генеративного ИИ и объединили её со стандартным ML-подходом в единой теоретической рамке. Они вывели декомпозиционные формулы, позволяющие детально оценивать влияние на справедливость как по разным причинным путям, так и при замене реальных механизмов на механизмы, усвоенные генеративной моделью.

Также установлены условия идентификации и представлены эффективные оценки для величин, связанных с причинным смещением. Практическую ценность методологии продемонстрировали на примере анализа расовой и гендерной предвзятости в больших языковых моделях на различных наборах данных.

Развитие таких методов важно для создания более прозрачных и справедливых систем ИИ, особенно в областях вроде найма, кредитования или правосудия, где решения на основе алгоритмов могут затрагивать жизнь людей.