Новая модель отслеживает эмоциональные фазы в разговоре с помощью видео, аудио и текста
Группа учёных представила новый метод анализа эмоциональной динамики в разговорах, основанный на мультимодальных скрытых марковских моделях. Работа опубликована на платформе arXiv и предлагает лёгкую альтернативу существующим подходам, использующим большие языковые модели (LLM).
Основная идея — моделировать эмоциональное состояние собеседников как последовательность скрытых режимов (regimes), каждый из которых соответствует определённому эмоциональному фону. Для этого применяется sticky factorial HDP-HMM (иерархический процесс Дирихле со свойством прилипания), который анализирует одновременно видео, аудио и текст.
Авторы построили представления валентности и возбуждения (valence-arousal) из каждого модального канала, а затем объединили их в марковской модели. Это позволяет улавливать длительные эмоциональные фазы, которые теряются при покадровом анализе отдельных высказываний.
Эффективность модели оценивалась с помощью LLM-судей, а также геометрических и временных метрик. Оказалось, что sticky HDP-HMM даёт более интерпретируемые последовательности режимов, чем классическая гауссова HMM, и при этом требует значительно меньше вычислительных ресурсов, чем LLM-методы диалогового трекинга.
В экспериментах на клинических данных модель показала, что эмоциональные фазы могут быть надёжно восстановлены из мультимодальных траекторий. Более того, эти фазы можно использовать для улучшения качества ответов LLM в нестабильных аффективных режимах через контекстную аугментацию.
Разработка открывает путь к масштабируемому и интерпретируемому анализу эмоциональной динамики в разговорах, что особенно важно для клинических приложений — например, для отслеживания состояния пациентов в терапии.


