ИИ-модели прошли тест на визуальный поиск: как нейросети ищут объекты среди множества
Учёные изучили, как vision-language модели справляются с задачами визуального поиска, которые десятилетиями использовались для изучения внимания человека. Вместо измерения времени реакции, которое отсутствует у нейросетей, они применили число «мыслительных» токенов как аналог усилий. Результаты показали как сходства, так и важные расхождения.
В эксперименте использовались четыре классических парадигмы: поиск по признаку и по комбинации признаков, поиск буквы T среди L, оценка количества объектов и асимметрия поиска наклонных линий. Топовые и средние модели прошли те же условия, что и люди в крупномасштабном исследовании Wolfe et al. (2010).
Оказалось, что модели воспроизводят некоторые человеческие закономерности. Например, поиск по простому признаку (цвет) требует почти постоянных усилий независимо от количества объектов, тогда как комбинаторный поиск становится сложнее с ростом числа элементов. Лучшие модели показывают высокую точность, в то время как средние падают до случайного уровня.
Однако были обнаружены и отличия. Самое заметное: зависимость усилий от присутствия цели — у моделей наклон кривой усилий больше при наличии цели, чем при её отсутствии, что противоположно человеческим данным. Также модели сохраняют точность при оценке количества объектов, где люди быстро теряют счёт.
Интересно, что одна из моделей с адаптивным рассуждением вообще отказалась тратить токены на задачи обнаружения, что привело к разным проявлениям одного и того же поиска: в одной модели — градиент усилий, в другой — резкое падение точности.
Авторы утверждают, что психофизические парадигмы, применённые поведенчески, — это острый и дешёвый зонд машинного зрительного познания. Расхождения между моделями и людьми столь же информативны, как и совпадения, и могут указывать на принципиальные различия в механизмах внимания.


