Объяснения LLM часто недостаточны: новое исследование на arXiv

Редакция RusNews 30-июн, 10:53 Наука 1 Искусственный интеллект

Группа исследователей представила на arXiv препринт, в котором поставила под сомнение надежность объяснений, генерируемых большими языковыми моделями (LLM). В работе утверждается, что цепочки рассуждений и пост-hoc рационализации, используемые в ответственных сферах, не всегда содержат достаточно информации, чтобы понять, как именно модель пришла к своему выводу.

Авторы обобщили классическое понятие достаточности, ранее применявшееся к атрибутам признаков, на произвольные объяснения. Они доказали, что достаточность объяснения может меняться в зависимости от распределения входных данных, что необходимо явно учитывать при работе с LLM.

В качестве решения была предложена новая метрика — self-consistent sufficiency (SCSuff). Её идея заключается в том, чтобы использовать саму LLM для генерации альтернативных входных данных на основе её объяснения. Таким образом, метрика оценивает, насколько объяснение соответствует представлениям модели о возможных входных данных, без опоры на заранее заданные предубеждения.

Эксперименты показали, что объяснения LLM в целом оказываются недостаточными. Причём степень их достаточности слабо коррелирует с размером модели, точностью её ответов или энтропией выходных данных. Это означает, что большие и более точные модели не обязательно дают более полные или информативные объяснения.

Дополнительно исследователи проанализировали скрытые состояния модели и обнаружили, что по ним можно предсказать, какие объяснения получат высокие или низкие оценки SCSuff. Это открытие может помочь в автоматическом выявлении и улучшении недостаточных объяснений.

Код для воспроизведения результатов доступен в репозитории на GitHub. Работа открыта для обсуждения и может стимулировать дальнейшие исследования в области объяснимого ИИ и повышения доверия к нейросетевым системам.

Объяснения LLM часто недостаточны: новое исследование на arXiv

Разделы

Навигация

Теги

Объяснения LLM часто недостаточны: новое исследование на arXiv

Читайте также

Разделы

Навигация

Теги