Новый бенчмарк IMCBench: Claude Opus 4.6 лучший, но опасен на редких диагнозах
Новый бенчмарк IMCBench призван восполнить пробел в оценке мультимодальных языковых моделей, работающих в медицинских диалогах с изображениями. Разработчики объединили реальные клинические снимки с синтетическими профилями пациентов, чтобы смоделировать реалистичные беседы врача и пациента.
Каждый диалог оценивался по трём клиническим измерениям: безопасность, точность и корректное использование неопределённости в диагнозе. В тестировании участвовали восемь моделей из четырёх семейств: Claude, GPT, Nova и Llama. Оценка проводилась по шкале от 1 до 5 с помощью метода LLM-as-Jury, откалиброванного по аннотациям экспертов-клиницистов.
Лучший общий результат показала модель Claude Opus 4.6, набрав 3,61 балла. За ней следуют Claude Sonnet 4.6 с 3,30 балла и GPT-5.2 с 3,29 балла. Однако ни одна модель не доминировала по всем измерениям: безопасность снижалась для злокачественных и редких заболеваний — падение составило 0,27 балла относительно среднего.
Дополнительные абляционные исследования показали, что удаление визуальных данных или контекста из электронной истории болезни (EHR) снижает безопасность рекомендаций в среднем на 0,18 и 0,23 балла соответственно. При этом более мощные модели эффективнее использовали визуальные признаки.
Авторы подчёркивают, что точное клиническое описание не гарантирует безопасность рекомендаций для пациента. Это подтверждает необходимость многомерных оценочных структур для медицинского ИИ.
IMCBench открыт для использования исследователями и может стать стандартом для проверки мультимодальных моделей перед внедрением в клиническую практику.




