OPPO: новый метод обучения ИИ точнее понимать эмоции из видео и аудио

Современные мультимодальные модели, способные анализировать видео, аудио и текст, часто плохо используют доступные сигналы и «галлюцинируют» — приписывают одной модальности информацию из другой. Это особенно критично при распознавании эмоций, где требуется точное считывание интонации, мимики и контекста.

Группа исследователей предложила решение — метод OPPO (Omni-Perception Policy Optimization), который оптимизирует восприятие модели с помощью обучения с подкреплением. OPPO состоит из двух компонентов: во-первых, специальная награда (Omni-Perception Reward) разбивает правильные рассуждения на визуальные, акустические и эмоциональные подсказки и поощряет модель за их семантическое восстановление. Во-вторых, функция потерь (Omni-Perception Loss) сравнивает поведение модели при полном и частично замаскированном входе, применяя KL-дивергенцию только к токенам доказательств определённой модальности, что подавляет кросс-модальные галлюцинации.

Для диагностики авторы создали бенчмарк MEP-Bench, который количественно оценивает, насколько полно модель использует сигналы из каждой модальности и насколько она «честна» в своих выводах. Эксперименты показали, что OPPO достигает современного уровня (SOTA) на наборах MER-UniBench и MME-Emotion, значительно превосходя предшественников. На MEP-Bench модель также существенно улучшила показатели использования и достоверности восприятия.

Работа подчёркивает важность полного и достоверного омни-восприятия для задач эмоционального рассуждения. Разработчики отмечают, что OPPO может быть адаптирован и для других мультимодальных задач, где требуется высокая точность согласования разных каналов информации. Исследование опубликовано на arXiv и доступно для ознакомления.