ML-модель предсказывает риск NAFLD с точностью 91% и объясняет факторы
Неалкогольная жировая болезнь печени (NAFLD) поражает примерно 25% взрослого населения мира, но эффективные скрининговые инструменты на популяционном уровне отсутствуют. В новой работе, опубликованной на arXiv, предложен фреймворк машинного обучения Method, который сочетает градиентный бустинг с конформным прогнозированием для получения калиброванных оценок риска без предположений о распределении данных.
Method использует процедуру отбора признаков на основе взаимной информации и стабильности при бутстреп-ресамплинге, что позволяет выделить компактный и клинически интерпретируемый набор факторов. Построенные прогностические множества гарантируют, что истинное значение риска попадет в интервал с заданным уровнем достоверности.
Исследователи оценили Method на многоцентровой когорте из Гуанчжоу (Китай) — 2187 пациентов в основной группе и 412 для внешней валидации. Использовались 78 кандидатных признаков, включая демографию, метаболические биомаркеры и образ жизни. Внутренняя AUC составила 0,912, внешняя — 0,891, что превзошло показатели глубоких нейронных сетей, TabNet, SVM и логистической регрессии.
Конформные прогностические множества достигли 91,3% эмпирического покрытия при номинальном уровне 90%. Трехуровневая стратификация риска разделила популяцию на группы с 12-месячной прогрессией: у высокорисковой подгруппы она была в 4,7 раза выше, чем у низкорисковой.
Отобранные признаки — окружность талии, аланинаминотрансфераза (АЛТ), гамма-глутамилтрансфераза (ГГТ), триглицериды, глюкоза натощак и индекс массы тела — соответствуют известным метаболическим факторам риска, что подтверждает биологическую обоснованность модели.
Разработка может стать основой для неинвазивного скрининга NAFLD в клинической практике, особенно в условиях ограниченных ресурсов. Авторы планируют дальнейшую валидацию на других популяциях и интеграцию метода в электронные медицинские карты.


