Универсальный токенизатор UniTok превращает временные ряды в язык для обучения ИИ

Группа исследователей опубликовала в архиве препринтов arXiv работу, описывающую универсальный токенизатор временных рядов UniTok и фундаментальную модель UniTok-FM. Разработка позволяет применять подход Next-Token Prediction, характерный для больших языковых моделей, к непрерывным данным временных рядов.

UniTok представляет собой векторно-квантованный автоэнкодер с префиксной нормализацией для стабилизации масштаба, прогрессивно-разрешающей каузальной архитектурой для кодирования и декодирования, а также специальной функцией потерь, сохраняющей структуру ряда. Это преобразует временные ряды в последовательности дискретных токенов.

Модель UniTok-FM использует готовую архитектуру языковой модели без каких-либо модификаций, специфичных для временных рядов. Обучение происходит не на изолированных рядах, а на контекстных окнах, сформированных из нескольких рядов со схожими паттернами, что позволяет улавливать их общую динамику.

Результаты экспериментов показывают, что единая модель UniTok-FM стабильно превосходит статистические и контролируемые базовые линии в задачах прогнозирования, генерации и классификации. Она также достигает конкурентоспособной производительности по сравнению с задача-специфичными фундаментальными моделями.

Уникальной особенностью является поддержка обучения без дообучения (training-free in-context inference) для генерации и классификации при малом количестве примеров. Такой возможности ранее не было у других моделей временных рядов.

Разработка открывает путь к созданию универсальных фундаментальных моделей для временных рядов, способных решать широкий спектр задач без этапа тонкой настройки. Это может быть полезно в финансах, метеорологии, мониторинге оборудования и других областях, где работа с временными рядами критична.

Исходный код и предобученные веса модели планируется опубликовать в открытом доступе, что ускорит внедрение технологии в прикладные проекты.