LLM скрывают предвзятость внутри, хотя выдают честные решения — угроза для кредитования
Исследователи изучили поведение инструктивно настроенных языковых моделей (LLM) в высокорисковых задачах, таких как одобрение ипотеки. Оказалось, что модели могут выдавать внешне справедливые решения, сохраняя при этом предвзятые ассоциации на внутренних уровнях.
В работе использовались модели с открытым весом и matched-заявки на ипотеку, различающиеся только этнически окрашенными именами. Результаты показали: на выходе модель не демонстрирует дискриминации, но её внутренние представления всё равно содержат стереотипы, которые усиливаются по мере прохождения через слои сети.
При помощи методов активационного управления и новых межслойных вмешательств учёные смогли «реактивировать» скрытую предвзятость. Когда подавленная информация возвращалась на критических слоях, решения модели почти полностью менялись — отказ превращался в одобрение и наоборот.
Ключевая находка — асимметрия: вмешательства в одном демографическом направлении оказывали сильное влияние, а в обратном — минимальное. Это делает системы уязвимыми для атак: adversarial-подсказки или тонкая настройка могут целенаправленно эксплуатировать скрытые смещения.
Авторы подчёркивают, что поведенческие аудиты, ориентированные только на выходы, недостаточны. Справедливые ответы могут маскировать внутренние предвзятости, которые при определённых условиях становятся решающими. Для надёжного контроля в таких сферах, как кредитование, требуется двухуровневое тестирование: проверка как выходных решений, так и внутренних представлений нейросети.
Исследование размещено на arXiv и открывает дискуссию о новых нормах проверки ИИ в финансовом секторе. Разработчикам и регуляторам стоит учитывать этот «скрытый резерв» предвзятости при создании систем принятия решений.






