Объяснения LLM часто недостаточны: новое исследование на arXiv
Группа исследователей представила на arXiv препринт, в котором поставила под сомнение надежность объяснений, генерируемых большими языковыми моделями (LLM). В работе утверждается, что цепочки рассуждений и пост-hoc рационализации, используемые в ответственных сферах, не всегда содержат достаточно информации, чтобы понять, как именно модель пришла к своему выводу.
Авторы обобщили классическое понятие достаточности, ранее применявшееся к атрибутам признаков, на произвольные объяснения. Они доказали, что достаточность объяснения может меняться в зависимости от распределения входных данных, что необходимо явно учитывать при работе с LLM.
В качестве решения была предложена новая метрика — self-consistent sufficiency (SCSuff). Её идея заключается в том, чтобы использовать саму LLM для генерации альтернативных входных данных на основе её объяснения. Таким образом, метрика оценивает, насколько объяснение соответствует представлениям модели о возможных входных данных, без опоры на заранее заданные предубеждения.
Эксперименты показали, что объяснения LLM в целом оказываются недостаточными. Причём степень их достаточности слабо коррелирует с размером модели, точностью её ответов или энтропией выходных данных. Это означает, что большие и более точные модели не обязательно дают более полные или информативные объяснения.
Дополнительно исследователи проанализировали скрытые состояния модели и обнаружили, что по ним можно предсказать, какие объяснения получат высокие или низкие оценки SCSuff. Это открытие может помочь в автоматическом выявлении и улучшении недостаточных объяснений.
Код для воспроизведения результатов доступен в репозитории на GitHub. Работа открыта для обсуждения и может стимулировать дальнейшие исследования в области объяснимого ИИ и повышения доверия к нейросетевым системам.


