T2D-Bench: новый бенчмарк выявил ошибки ИИ в рекомендациях при диабете 2 типа

Научная группа разработала T2D-Bench — воспроизводимый бенчмарк для проверки того, насколько ответы больших языковых моделей по диабету 2 типа соответствуют требованиям клинических рекомендаций и доказательной медицины. Работа опубликована в репозитории arXiv.

Основой бенчмарка служит многослойный клинико-образ жизни граф знаний. Он объединяет биомедицинские источники (UMLS, DrugBank, SIDER), формализованные правила стандартов помощи Американской диабетической ассоциации (ADA) и данные о влиянии образа жизни на лабораторные показатели гликемии.

Учёные создали 100 структурированных клинических сценариев, охватывающих диагностику, безопасность лекарств и конфликты между лекарственной терапией и образом жизни. Затем проверили ответы двух версий GPT-4o — стандартной (GPT-4o) и облегчённой (GPT-4o-mini).

Результаты показали, что базовая версия GPT-4o-mini не прошла проверку на соответствие требованиям доказательств в 35% случаев, а GPT-4o — в 33% случаев. Большинство ошибок связано с тем, что модели давали клинически правдоподобные, но не подкреплённые явными источниками рекомендации.

Для исправления этой проблемы в бенчмарк встроен «шлюз доказательств» (evidence gate). Он автоматически выявляет неподтверждённые утверждения и с помощью ограниченного редактирования приводит ответы к требуемому уровню обоснованности.

Разработчики подчёркивают, что T2D-Bench делает необоснованные пропуски в ответах ИИ измеримыми и исправимыми. Бенчмарк можно использовать как для тестирования существующих моделей, так и для дообучения новых версий с акцентом на доказательность.

По мнению экспертов, подобные инструменты особенно важны для медицинских приложений ИИ, где необоснованные рекомендации могут навредить пациентам. T2D-Bench — шаг к созданию более надёжных и прозрачных систем поддержки принятия решений при диабете 2 типа.