ИИ-модели для медицины отказываются от верного диагноза под давлением врача

Языковые модели искусственного интеллекта (LLM) демонстрируют впечатляющую точность на медицинских тестах, но в реальном клиническом диалоге могут легко отказаться от первоначального правильного диагноза под нарастающим давлением. Это выявило новое исследование, опубликованное на arXiv.

Учёные разработали стресс-тест под названием Med-Stress, который оценивает устойчивость убеждений модели в ходе многошагового диалога с эскалацией давления. В тесте участвовали девять передовых LLM различных разработчиков.

Результаты показали чёткое расхождение между медицинскими знаниями модели и её устойчивостью: высокая исходная точность диагностики не означает, что модель сохранит свой ответ под давлением. Для нескольких моделей был выявлен значительный разрыв между знаниями и робастностью.

Чтобы снизить этот эффект, авторы предложили два лёгких метода защиты. Первый — RBED (Role-Based Epistemic Defense), работающий на этапе вывода. Второй — R-FT (Resilience-oriented Fine-Tuning), метод тонкой настройки, который закрепляет устойчивость к давлению на основе фактов.

Эксперименты показали, что R-FT почти полностью устраняет нежелательную смену убеждений и значительно повышает робастность моделей в условиях клинического давления.

Результаты подчёркивают необходимость дополнительных механизмов надёжности для внедрения ИИ в медицину, где даже редкая ошибка может иметь серьёзные последствия для пациентов.