EHRBench: новый бенчмарк для оценки LLM в клинических решениях на основе 1 млн вопросов

Группа исследователей разработала EHRBench — автоматизированный и надежный бенчмарк для оценки больших языковых моделей (LLM) в задачах клинического принятия решений. Работа опубликована на arXiv и представляет собой масштабную попытку восполнить пробел в оценке применимости LLM в реальной медицинской практике.

Бенчмарк строится на основе электронных медицинских карт (EHR) и использует конвейер EHR-LLM-KB (knowledge base). Специализированная LLM автоматически преобразует истории посещений пациентов в структурированные шаблоны, из которых затем детерминированно генерируются вопросы и ответы. Параллельно применяется верификация на основе баз знаний для фильтрации галлюцинированных или неоднозначных связей.

В итоге EHRBench включает 960 067 вопросов, охватывающих три ключевые задачи клинического принятия решений: диагностику, выбор лечения и прогнозирование исходов. Такой объем позволяет проводить статистически значимые сравнения различных моделей.

Авторы протестировали более 30 современных LLM, включая как открытые, так и проприетарные модели. Результаты показали устойчивые тенденции в производительности в зависимости от размера модели и архитектуры, но также выявили существенные пробелы в надежности моделей для клинического применения.

Особое внимание уделено анализу устойчивости LLM к различным формулировкам вопросов и вариациям в данных. Исследование подтверждает, что EHRBench может служить надежным инструментом для выявления областей, где LLM требуют доработки перед внедрением в реальную клиническую практику.

Разработка EHRBench важна для прогресса в области ИИ в медицине, поскольку позволяет стандартизированно и масштабно оценивать возможности LLM, снижая риски ошибок при автоматизации клинических решений. Однако авторы подчеркивают, что текущие модели все еще далеки от уровня, необходимого для безопасного использования в реальных больницах.