Orchestra-o1: новая система оркестрации мультимодальных агентов превзошла аналоги на 10%
Группа исследователей опубликовала работу, посвящённую Orchestra-o1 — новому фреймворку для оркестрации мультимодальных агентов. Разработка решает проблему координации задач, включающих разнородные типы данных: текст, изображения, аудио и видео.
В отличие от существующих систем, Orchestra-o1 предлагает единый механизм оркестрации, учитывающий особенности каждой модальности. Это позволяет автоматически разбивать сложные задачи на подзадачи, назначать специализированных агентов и выполнять их параллельно.
На бенчмарке OmniGAIA система превзошла второй по качеству результат на 10,3% по точности. Также авторы представили метод обучения DA-GRPO (decision-aligned group relative policy optimization), который позволил модели Orchestra-o1-8B достичь state-of-the-art среди всех открытых мультимодальных агентов.
Новый подход открывает перспективы для систем, которым необходимо одновременно обрабатывать и связывать информацию из разных источников — от голосовых команд и видео до текстовых документов и изображений. По мнению авторов, Orchestra-o1 может стать основой для более универсальных и эффективных ИИ-ассистентов.
Подробности работы доступны в препринте на arXiv.


