Новый обзор указал на четыре ключевых пробела в оценке мультимодальных LLM

Группа исследователей представила на arXiv обзор текущих методов оценки мультимодальных больших языковых моделей (MLLM). Авторы отмечают, что, хотя способности таких моделей быстро развиваются, системы их тестирования значительно отстают. Большинство существующих бенчмарков ориентированы на изолированные задачи и не показывают, насколько хорошо модель интегрирует информацию из разных модальностей — текста, изображений, аудио и видео.

В работе выделены четыре ключевых пробела, которые редко учитываются при оценке. Первый — пространственно-временная связность: модели часто не проверяются на способность понимать последовательность событий во времени и пространстве. Второй — понимание физического мира: тесты редко требуют от модели знаний о законах физики, причинно-следственных связях и поведении объектов.

Третий пробел — мультимодальная согласованность: существующие бенчмарки слабо оценивают, насколько согласованно модель использует информацию из разных каналов, например, может ли она обнаружить противоречие между текстом и изображением. Четвёртый — избирательное внимание: модели не проверяются на способность фокусироваться на релевантных модальностях при наличии шума или неполных данных.

Как отмечают авторы, устранение этих пробелов необходимо для объективного измерения прогресса в мультимодальном интеллекте и выявления реальных границ возможностей современных MLLM. Без таких тестов сложно понять, насколько модели действительно понимают сложные сценарии, а не просто подбирают ответы по поверхностным признакам.

Исследование носит обзорный характер и может стать основой для разработки новых, более всесторонних бенчмарков. В дальнейшем авторы планируют предложить конкретные метрики и тестовые наборы, закрывающие указанные пробелы.