HealthCraft: первая публичная RL-среда для безопасной работы ИИ в неотложной медицине
Группа исследователей опубликовала в архиве препринтов arXiv работу, в которой представила HealthCraft — первую общедоступную среду обучения с подкреплением (RL), предназначенную для оценки безопасности языковых моделей в условиях неотложной медицинской помощи. Среда построена на основе симулятора Corecraft и использует стандарт медицинских данных FHIR R4.
HealthCraft моделирует реалистичную клиническую обстановку: состояние мира включает 14 типов сущностей и 3987 начальных сущностей, а для взаимодействия доступно 24 инструмента по протоколу MCP. Для оценки поведения моделей разработана двуслойная система оценок, которая обнуляет вознаграждение при нарушении любого из критически важных критериев безопасности.
Всего опубликовано 195 задач шести категорий, оцениваемых по 2255 бинарным критериям, из которых 515 касаются непосредственно безопасности. Позднее набор расширен до 205 задач и 2337 критериев за счёт дополнительного негативного набора из 10 задач.
Результаты тестирования на двух современных моделях — Claude Opus 4.6 и GPT-5.4 — оказались невысокими. Показатель Pass@1 для Claude составил 24,8% (доверительный интервал 21,5–28,4), для GPT — 12,6% (10,2–15,6). При этом доля сценариев с нарушением безопасности достигла 27,5% у Claude и 34,0% у GPT.
Особенно низкие результаты модели продемонстрировали на многошаговых рабочих процессах, которые максимально приближены к реальной экстренной помощи. Там успешность Claude упала до 1,0%, а GPT — до 0,0%, хотя на отдельных шагах модели проявляли частичную компетентность.
Авторы отметили, что инфраструктурные ошибки, исправленные между версиями пилота v2 и v8, меняли относительный рейтинг моделей, что подтверждает важность точности измерительной инфраструктуры. Для снижения шума оценок использовался детерминированный судья на основе LLM.
Базовые тесты негативного набора показали, что сигнал вознаграждения не пригоден для прямого использования в обучении: критерии сдерживания выполнялись в 92,9% случаев, что является игровой возможностью, допустимой при оценке, но небезопасной при обучении. Среда, задачи, рубрики и инфраструктура оценки опубликованы под лицензией Apache 2.0.



