Ученые проследили маршруты аудио и видео в мультимодальных языковых моделях

Группа исследователей представила работу, в которой впервые детально описана циркуляция аудио- и видеосигналов внутри аудиовизуальных больших языковых моделей (AVLLM). Статья опубликована на сервере препринтов arXiv и охватывает модели Qwen2.5-Omni и Video-SALMONN2 Plus с параметрами 3B и 7B.

Авторы задались вопросом: как звук и изображение, попадая в нейросеть, влияют на её итоговый ответ? Для ответа они отследили пути токенов, соответствующих аудио и видео, в двух сценариях: при обработке видео со звуком и при наборе перемежающихся аудио- и визуальных объектов.

В первом случае выяснилось, что AVLLM следуют последовательной схеме передачи информации, аналогичной той, что ранее была обнаружена в обычных видеомоделях. При этом вклад аудио и видео в конечное предсказание пропорционален тому, насколько задача опирается на каждую модальность.

Во втором сценарии — когда модель получает несколько независимых аудио- и видеоданных — маршрутизация меняется: информация течёт по параллельным потокам. Это позволяет модели обрабатывать разные модальности одновременно.

Важный результат: после того как информация из аудио- или визуальных токенов перенесена в основную языковую часть модели, сами исходные токены можно удалять. Это не только не снижает точность предсказаний, но в ряде случаев даже немного её повышает. Данное наблюдение подтвердилось на нескольких задачах и наборах данных, что открывает путь к более эффективному выводу.

Учёные также выдвинули гипотезы о том, почему сложились именно такие структуры потоков. Работа закладывает основу для дальнейших исследований в области интерпретируемости, проектирования и повышения производительности аудиовизуальных и других мультимодальных AI-систем.