Разработан воспроизводимый AutoML-фреймворк для прогнозирования риска диабета и инсульта
Исследователи опубликовали статью, описывающую новый автоматизированный фреймворк машинного обучения для предсказания риска заболеваний. Разработка, получившая название yvsoucom-iterkit, позиционируется как первый полностью воспроизводимый и детерминированный AutoML-подход, ориентированный на задачи здравоохранения.
Ключевая особенность фреймворка — лог-ориентированное представление каждого пайплайна. Каждый эксперимент кодируется как отслеживаемая сущность, что позволяет анализировать вклад отдельных компонентов, их взаимодействие и устойчивость к различным начальным условиям. Это решает проблему воспроизводимости, часто встречающуюся в AutoML.
Эксперименты проводились на двух известных наборах медицинских данных: Pima Indians Diabetes (диабет у женщин-индейцев Пима) и Stroke (риск инсульта). Всего было протестировано более 18 000 различных конфигураций пайплайнов, что позволило детально изучить пространство поиска.
Анализ важности компонентов с помощью случайного леса показал, что на наборе Pima ключевыми драйверами производительности являются аугментация данных (вклад 0.454), выбор модели (0.198) и борьба с дисбалансом классов (0.101). Для набора Stroke доминирующим фактором стала обработка дисбаланса (0.406). При этом обнаружена высокая избыточность компонентов: некоторые варианты, например, методы отбора признаков biMax и biMean, показали практически идентичные результаты (RMS-расстояние 0.0252), а mixup почти не отличался от отсутствия аугментации.
Фреймворк продемонстрировал высокую и стабильную производительность при использовании ансамблей моделей. На наборе Pima Weighted-F1 составил 0.89, Macro-F1 — 0.88. На Stroke Weighted-F1 достиг 0.94, однако Macro-F1 оказался ниже (0.67) из-за сильного дисбаланса классов. Анализ разных начальных значений генератора случайных чисел выявил компромисс между производительностью и устойчивостью: ансамбли показали меньшую вариативность (0.023–0.026), чем SVM.
Авторы заключают, что эффективная оптимизация AutoML может быть сосредоточена на небольшом наборе наиболее влиятельных компонентов. Разработанный фреймворк предлагает практичный подход к построению высокоточных и воспроизводимых моделей для прогнозирования риска заболеваний, что имеет значение для персонализированной медицины.


