TSFMAudit: новый метод выявления загрязнения данных в моделях временных рядов

Редакция RusNews 27-май, 08:24 Наука 1 Искусственный интеллект

Проблема загрязнения данных (data contamination) становится всё более актуальной по мере роста масштабов предобучения моделей. Если тестовые наборы случайно оказались в обучающей выборке, оценки производительности моделей оказываются завышенными. Для больших языковых моделей (LLM) методы обнаружения такой утечки уже существуют, но для моделей временных рядов — впервые.

Группа исследователей представила работу TSFMAudit, посвящённую аудиту загрязнения данных в моделях временных рядов (Time Series Foundation Models, TSFM). Основная сложность в том, что сигналы временных рядов непрерывны и разнородны, а документация по корпусам данных часто отсутствует.

Авторы формализуют задачу аудита предобучения и предлагают метод, основанный на динамике адаптации проб (probe adaptation dynamics). Идея: если данные были использованы в обучении, то модель адаптируется к ним аномально быстро — после тонкой настройки (fine-tuning) на загрязнённых данных снижение потерь происходит быстрее, а смещение весов меньше.

Для проверки метода учёные протестировали TSFMAudit на 6 TSFM и 187 наборах данных. В качестве эталона использовалась документированная информация о том, какие данные действительно присутствовали в обучающей выборке. Метод сравнивали с 10 базовыми подходами, адаптированными из литературы по LLM.

Результаты показали, что TSFMAudit эффективно выявляет загрязнённые наборы данных. Это позволяет более объективно оценивать реальные способности моделей временных рядов и избегать ложных выводов об их качестве.

Работа опубликована в репозитории arXiv и привлекает внимание сообщества машинного обучения. В перспективе метод может стать стандартным инструментом валидации для разработчиков моделей и исследователей.

TSFMAudit: новый метод выявления загрязнения данных в моделях временных рядов

Разделы

Навигация

Теги

TSFMAudit: новый метод выявления загрязнения данных в моделях временных рядов

Читайте также

Разделы

Навигация

Теги