Исследователи научились предсказывать отклонение ответов ИИ в больницах
Группа исследователей из крупного академического медицинского центра провела оценку языковой модели (LLM), интегрированной в систему электронных медицинских карт. Главной задачей стало предсказание того, когда врач отвергнет предложенный ИИ ответ — на основе только контекста запроса и данных о развертывании, доступных до генерации.
Для этого авторы обучили классификатор, использующий такие признаки, как тип поставщика медицинских услуг, название отделения и версию модели, наряду с содержанием запроса. В течение 4,5 месяцев собирались данные об обратной связи пользователей, которая была разреженной, но точно отражала реальные условия эксплуатации.
По итогам проспективного анализа модель показала AUROC (площадь под ROC-кривой) 0,719. Это означает умеренную способность различать случаи, когда пользователь примет или отвергнет ответ ИИ. Учёт контекста развёртывания — а не только текста запроса — существенно улучшил предсказательную способность.
Разработчики оценили два варианта применения такого классификатора: срабатывание «охранителя» (guardrails) перед выдачей ответа и полное воздержание от генерации в высокорисковых случаях. По оценкам, это позволило бы снизить количество отклонённых ответов без потери полезных.
Ключевой концептуальный вывод работы в том, что контекст развёртывания — например, кто задаёт вопрос и в каком отделении — даёт больше информации о вероятном принятии или отказе, чем только содержание запроса. Авторы подчёркивают, что статические бенчмарки часто упускают этот аспект, оценивая лишь корректность, а не реальное принятие пользователями.
Исследование открывает путь к более целенаправленным защитным механизмам в клинических системах ИИ, снижая риск нежелательных ответов без излишнего ограничения функциональности. Работа опубликована на платформе arXiv и прошла рецензирование для конференции.



