Новый нейросимволический фреймворк Logic-GNN выявляет ошибки в клинических записях как грамматические нарушения
Ошибки при вводе данных в медицинские информационные системы остаются серьёзной проблемой: они могут искажать статистику, приводить к неверным диагнозам и угрожать безопасности пациентов. Традиционные статистические методы часто путают аномалии с редкими, но клинически оправданными отклонениями. Новая работа на arXiv предлагает принципиально иной подход — рассматривать клинические записи как структурированный «частный язык», подчиняющийся скрытым логическим правилам.
Исследователи разработали фреймворк Logic-GNN, объединяющий временные графовые нейронные сети (TGNN) и графовую колмогоровскую сложность. С его помощью они индуцируют символическую грамматику, которая отражает логику медицинских взаимодействий. Аномалии при этом трактуются как «грамматические нарушения», вызывающие значительное увеличение минимальной длины описания клинического графа.
Метод был протестирован на датасете Sina System, содержащем более 2 миллионов записей. Logic-GNN достиг F1-меры 0.94, что на 12% превосходит лучшие существующие подходы. Система способна отличить жизнеугрожающие медицинские выбросы от банальной порчи данных, вызванной человеческим фактором.
Ключевая особенность Logic-GNN — встроенный механизм самовосстановления. Алгоритм не только обнаруживает ошибки, но и предлагает логически обоснованные исправления, которые могут быть применены в реальном времени. Это позволяет поддерживать целостность данных в госпитальных информационных системах без остановки их работы.
Авторы подчёркивают, что их подход эффективен именно благодаря сочетанию нейросетевого обучения и символического вывода. Грамматика, извлечённая из данных, даёт интерпретируемость, а графовая сложность обеспечивает устойчивость к шуму. В перспективе технология может быть адаптирована для других доменов, где важна логическая целостность записей, например, в финансах или юридической сфере.
Разработка уже протестирована на реальных клинических данных и показывает высокую готовность к внедрению. Дальнейшие планы включают интеграцию с коммерческими HIS и расширение на многомодальные данные, включая медицинские изображения и сигналы.


