Исследование: LLM не осознают границы своих знаний на клинических данных — учёные нашли способ это исправить

Исследователи из нескольких научных учреждений опубликовали работу, в которой показали, что большие языковые модели (LLM) не способны распознавать границы собственных знаний при работе с табличными клиническими данными. В статье на arXiv представлены результаты экспериментов с моделью Qwen 2.5 7B, сравниваемой с XGBoost на задачах прогнозирования.

Основные выводы основаны на анализе расхождения атрибуций (Cross-Model Attribution Divergence). Учёные обнаружили, что вербализованная уверенность LLM (verbalized confidence) оказалась эпистемически пустой: модель выдавала почти постоянные значения (0,856–0,937) вне зависимости от реальной точности — будь то 49% или 75,3%. То есть уверенность отражала формат промпта, а не качество предсказания.

Второй важный результат — эффект обратной трудности. Точность LLM падала до 64,8% в тех случаях, когда XGBoost был уверен на 99%, но почти сравнивалась с XGBoost (73,8% против 73,1%) при умеренной неопределённости. Это означает, что LLM ошибается чаще всего там, где простая модель уверенно права.

Третье открытие: комбинация few-shot примеров и SHAP-атрибутов даёт супераддитивный эффект. При совместном использовании этих двух ортогональных методов показатель расхождения атрибуций (ADS) снизился с 1,54 до 0,38, а точность выросла с 49% до 75,3% без необходимости дополнительного обучения.

Наконец, учёные разработали кросс-модельный калибратор, который определяет надёжность LLM по сигналам расхождения атрибуций. Он заменил неинформативную вербализованную уверенность на оценку, специфичную для конкретного пациента, снизив ожидаемую ошибку калибровки с 0,254 до 0,080. При этом калибратор не требует доступа к внутренним механизмам модели или многократных инференсов.

Авторы работы характеризуют текущее состояние как проблему «холодного старта» для LLM на структурированных данных и намечают путь к подлинной эпистемической самоосознанности. Результаты могут быть полезны для разработки более надёжных клинических ассистентов на основе больших языковых моделей.