Chronicle: первая модель, обученная с нуля на тексте и временных рядах, превзошла аналоги

Мультимодальные модели, объединяющие текст и числовые временные ряды, обычно адаптируют готовую языковую нейросеть, что ограничивает их способность понимать временную динамику. Новая работа исследователей предлагает принципиально иной подход — обучение с нуля единой архитектуры на обоих типах данных.

Модель Chronicle с 324 миллионами параметров построена на архитектуре decoder-only transformer. Текст и временные ряды обрабатываются одними и теми же блоками трансформера, механизмом внимания и residual stream. Основная часть предобучения проходит на однозадачных пакетах, а кросс-модальные способности возникают за счет общих параметров; короткая стадия выравнивания чередует данные разных типов.

По словам авторов, Chronicle — первая модель, совместно обученная с нуля на тексте и временных рядах, и первая мультимодальная модель, оцененная против специализированных фундаментальных моделей в обоих доменах. На 19 задачах понимания естественного языка Chronicle достигает уровня Gemma-3-270M-PT, а на 24 датасетах UCR/UEA устанавливает новый рекорд для классификации временных рядов с замороженными эмбеддингами.

В тестах мультимодального прогнозирования на наборе Time-MMD Chronicle превзошла все контролируемые методы слияния, работая как единый бэкбон. Это указывает на то, что совместное обучение с нуля может быть эффективнее, чем дообучение уже готовых языковых моделей.

Результаты работы подчёркивают, что для глубокого понимания временных рядов необходима архитектура, изначально учитывающая их структуру, а не адаптирующая текстовые представления. Разработчики планируют открыть исходный код модели для дальнейших исследований.