Visual-Seeker: новый ИИ-агент для визуального поиска превзошел ряд закрытых моделей

Редакция RusNews 16-июн, 12:16 Наука 1 Искусственный интеллект

Группа исследователей разработала Visual-Seeker — мультимодального агента для глубокого поиска, способного активно анализировать визуальные детали в реальном времени. В отличие от традиционных подходов, где изображение рассматривается как статичный ввод, новая модель динамически собирает визуальные свидетельства на каждом этапе поиска.

Проблема, которую решает Visual-Seeker, связана с ограничениями современных мультимодальных больших языковых моделей (MLLM). Они часто теряют фактическую обоснованность при работе со сложными, неструктурированными сценариями. Существующие методы мультимодального поиска в основном полагаются на простые изображения с явной семантикой и текстовые цепочки, что снижает способность к многошаговым и кросс-модальным рассуждениям.

Чтобы преодолеть эти ограничения, авторы реализовали в Visual-Seeker активную визуальную аргументацию. Агент не просто обрабатывает картинку целиком, а выделяет мелкие детали и использует их для уточнения запроса по ходу работы. Это приближает его к тому, как человек ищет информацию, обращая внимание на разные элементы изображения.

Для обучения модели была создана специальная пайплайн генерации данных с активными визуальными рассуждениями. Синтезировано 5 тысяч высококачественных мультимодальных траекторий, которые позволили агенту научиться эффективно взаимодействовать с веб-средой. Код и данные выложены в открытом доступе на GitHub.

Результаты экспериментов показали, что Visual-Seeker достигает самого высокого качества среди аналогов на пяти сложных бенчмарках мультимодального поиска. При этом он превзошёл несколько проприетарных моделей, что подтверждает состоятельность визуально-ориентированного подхода. Испытания проводились в реалистичных веб-условиях.

Разработка открывает новые возможности для поисковых систем, способных понимать не только текст, но и изображения как активный источник данных. В перспективе такие агенты могут применяться в электронной коммерции, навигации, образовании и других сферах, где важен комплексный анализ визуальной информации.

Visual-Seeker: новый ИИ-агент для визуального поиска превзошел ряд закрытых моделей

Разделы

Навигация

Теги

Visual-Seeker: новый ИИ-агент для визуального поиска превзошел ряд закрытых моделей

Читайте также

Разделы

Навигация

Теги