Гибрид FT-Transformer и XGBoost улучшил предсказание оттока клиентов на 3,37% F1
Прогнозирование оттока клиентов — одна из ключевых задач для страховых, банковских и подписочных сервисов. Удержание существующих пользователей обходится дешевле привлечения новых, однако дисбаланс классов и нелинейные зависимости усложняют построение точных моделей.
Исследователи из академического сообщества предложили гибридный подход, комбинирующий Feature-Tokenized Transformer (FT-Transformer) и градиентный бустинг XGBoost. Основная идея — использовать трансформер для захвата сложных взаимодействий признаков через механизм самовнимания, а XGBoost — для дополнительного учета градиентно-бустированных решающих границ.
Для объединения моделей применялся стеккинг с логистической регрессией в качестве мета-обучающего алгоритма. Логистическая регрессия калибрует излишне самоуверенные предсказания базовых моделей и подбирает оптимальные веса комбинации. Проблему дисбаланса классов решали с помощью взвешенной функции потерь, избегая синтетических методов аугментации.
На публичном датасете оттока банковских клиентов гибридная модель показала F1-меру 62,10%, AUC-ROC 0,861 и PR-AUC 0,647. Это превзошло базовый MLP на 3,37 пункта по F1 и на 0,027 по AUC при кросс-валидации 5x5 с 95% доверительными интервалами.
Абляционные исследования подтвердили вклад каждого компонента: как FT-Transformer, так и стратегия стеккинга существенно повысили итоговое качество. Авторы подчеркивают воспроизводимость и расширяемость предложенной архитектуры для современных задач прогнозирования на структурированных табличных данных.
Работа размещена на arXiv и призвана заполнить пробелы в статистическом обосновании и калибровке вероятностей, замеченные в предыдущих исследованиях. Ожидается, что подобные гибридные схемы найдут применение в реальных бизнес-системах, где точность и интерпретируемость одинаково важны.



