TSFMAudit: новый метод выявления загрязнения данных в моделях временных рядов
Проблема загрязнения данных (data contamination) становится всё более актуальной по мере роста масштабов предобучения моделей. Если тестовые наборы случайно оказались в обучающей выборке, оценки производительности моделей оказываются завышенными. Для больших языковых моделей (LLM) методы обнаружения такой утечки уже существуют, но для моделей временных рядов — впервые.
Группа исследователей представила работу TSFMAudit, посвящённую аудиту загрязнения данных в моделях временных рядов (Time Series Foundation Models, TSFM). Основная сложность в том, что сигналы временных рядов непрерывны и разнородны, а документация по корпусам данных часто отсутствует.
Авторы формализуют задачу аудита предобучения и предлагают метод, основанный на динамике адаптации проб (probe adaptation dynamics). Идея: если данные были использованы в обучении, то модель адаптируется к ним аномально быстро — после тонкой настройки (fine-tuning) на загрязнённых данных снижение потерь происходит быстрее, а смещение весов меньше.
Для проверки метода учёные протестировали TSFMAudit на 6 TSFM и 187 наборах данных. В качестве эталона использовалась документированная информация о том, какие данные действительно присутствовали в обучающей выборке. Метод сравнивали с 10 базовыми подходами, адаптированными из литературы по LLM.
Результаты показали, что TSFMAudit эффективно выявляет загрязнённые наборы данных. Это позволяет более объективно оценивать реальные способности моделей временных рядов и избегать ложных выводов об их качестве.
Работа опубликована в репозитории arXiv и привлекает внимание сообщества машинного обучения. В перспективе метод может стать стандартным инструментом валидации для разработчиков моделей и исследователей.


