Новый бенчмарк IRTS-ToolBench: 1700 задач для ИИ-агентов по работе с нерегулярными временными рядами

Большинство существующих бенчмарков для временных рядов (Time Series Question Answering) оперируют равномерно дискретизированными данными. Однако в реальных системах — от промышленных датчиков до финансовых логов — измерения, как правило, нерегулярны: асинхронны, с пропусками и переменной частотой. Это создаёт фундаментальный разрыв между условиями тестирования и практическим применением.

Чтобы восполнить этот пробел, группа исследователей разработала IRTS-ToolBench. Бенчмарк включает 1700 вопросов, разделённых на 10 типов задач — от простой экстраполяции до сложного причинно-следственного анализа. Данные собраны из 13 доменов, включая энергетику, транспорт, медицину и интернет вещей.

Особенность набора в том, что он пригоден для самостоятельного использования любым исследователем, работающим над LLM-ориентированным анализом нерегулярных временных рядов. Для каждой задачи предоставлены стандартизированные входные данные и воспроизводимый протокол оценки.

Как отмечают авторы, современные языковые модели (LLM) и ИИ-агенты часто демонстрируют высокие результаты на «чистых» данных, но резко теряют качество при появлении асинхронности или пропусков. IRTS-ToolBench призван выявить эти слабые места и стимулировать разработку более устойчивых алгоритмов.

Инструментарий и инструкции уже опубликованы в открытом доступе на GitHub. Ожидается, что бенчмарк станет стандартным полигоном для тестирования агентных систем, претендующих на использование в промышленной аналитике, прогнозировании и диагностике.