Visual-Seeker: новый ИИ-агент для визуального поиска превзошел ряд закрытых моделей
Группа исследователей разработала Visual-Seeker — мультимодального агента для глубокого поиска, способного активно анализировать визуальные детали в реальном времени. В отличие от традиционных подходов, где изображение рассматривается как статичный ввод, новая модель динамически собирает визуальные свидетельства на каждом этапе поиска.
Проблема, которую решает Visual-Seeker, связана с ограничениями современных мультимодальных больших языковых моделей (MLLM). Они часто теряют фактическую обоснованность при работе со сложными, неструктурированными сценариями. Существующие методы мультимодального поиска в основном полагаются на простые изображения с явной семантикой и текстовые цепочки, что снижает способность к многошаговым и кросс-модальным рассуждениям.
Чтобы преодолеть эти ограничения, авторы реализовали в Visual-Seeker активную визуальную аргументацию. Агент не просто обрабатывает картинку целиком, а выделяет мелкие детали и использует их для уточнения запроса по ходу работы. Это приближает его к тому, как человек ищет информацию, обращая внимание на разные элементы изображения.
Для обучения модели была создана специальная пайплайн генерации данных с активными визуальными рассуждениями. Синтезировано 5 тысяч высококачественных мультимодальных траекторий, которые позволили агенту научиться эффективно взаимодействовать с веб-средой. Код и данные выложены в открытом доступе на GitHub.
Результаты экспериментов показали, что Visual-Seeker достигает самого высокого качества среди аналогов на пяти сложных бенчмарках мультимодального поиска. При этом он превзошёл несколько проприетарных моделей, что подтверждает состоятельность визуально-ориентированного подхода. Испытания проводились в реалистичных веб-условиях.
Разработка открывает новые возможности для поисковых систем, способных понимать не только текст, но и изображения как активный источник данных. В перспективе такие агенты могут применяться в электронной коммерции, навигации, образовании и других сферах, где важен комплексный анализ визуальной информации.




