MER-R1: новый фреймворк для распознавания эмоций сочетает быструю и медленную «мысль»
В новом исследовании, опубликованном на arXiv, описан фреймворк MER-R1, который решает задачу совмещения интуитивного и рационального мышления в мультимодальных моделях для распознавания эмоций.
Авторы выяснили, что явные рассуждения не всегда повышают точность, хотя делают предсказания более интерпретируемыми. Быстрое мышление (прямой ответ) улучшает полноту, тогда как медленное (обдуманное рассуждение) повышает точность за счёт фильтрации неверных категорий.
На этих данных построена система обучения с подкреплением MER-R1. Она использует разделение двойных целей (dual-objective disentanglement), чтобы оптимизировать полноту и точность совместно, а не в ущерб друг другу.
Дополнительно применяется калибровка уверенности (slow-fast confidence calibration), согласующая итоговый ответ медленного мышления с интуитивными сигналами быстрого. Это усиливает правильные эмоции и подавляет ошибочные.
MER-R1 протестирован на наборах данных MER-UniBench и MME-Emotion. Результаты показали, что фреймворк достигает наилучших показателей и впервые делает рассуждения действительно полезными для распознавания эмоций.
Теоретический анализ указывает, что такой синергетический подход уменьшает интерференцию, вызванную дисперсией оптимизации. Это открывает путь к более эффективному использованию рассуждений в мультимодальном ИИ.



