Новая модель отслеживает эмоциональные фазы в разговоре с помощью видео, аудио и текста

Редакция RusNews 14-май, 10:51 Наука 1 Искусственный интеллект

Группа учёных представила новый метод анализа эмоциональной динамики в разговорах, основанный на мультимодальных скрытых марковских моделях. Работа опубликована на платформе arXiv и предлагает лёгкую альтернативу существующим подходам, использующим большие языковые модели (LLM).

Основная идея — моделировать эмоциональное состояние собеседников как последовательность скрытых режимов (regimes), каждый из которых соответствует определённому эмоциональному фону. Для этого применяется sticky factorial HDP-HMM (иерархический процесс Дирихле со свойством прилипания), который анализирует одновременно видео, аудио и текст.

Авторы построили представления валентности и возбуждения (valence-arousal) из каждого модального канала, а затем объединили их в марковской модели. Это позволяет улавливать длительные эмоциональные фазы, которые теряются при покадровом анализе отдельных высказываний.

Эффективность модели оценивалась с помощью LLM-судей, а также геометрических и временных метрик. Оказалось, что sticky HDP-HMM даёт более интерпретируемые последовательности режимов, чем классическая гауссова HMM, и при этом требует значительно меньше вычислительных ресурсов, чем LLM-методы диалогового трекинга.

В экспериментах на клинических данных модель показала, что эмоциональные фазы могут быть надёжно восстановлены из мультимодальных траекторий. Более того, эти фазы можно использовать для улучшения качества ответов LLM в нестабильных аффективных режимах через контекстную аугментацию.

Разработка открывает путь к масштабируемому и интерпретируемому анализу эмоциональной динамики в разговорах, что особенно важно для клинических приложений — например, для отслеживания состояния пациентов в терапии.

Новая модель отслеживает эмоциональные фазы в разговоре с помощью видео, аудио и текста

Разделы

Навигация

Теги

Новая модель отслеживает эмоциональные фазы в разговоре с помощью видео, аудио и текста

Читайте также

Разделы

Навигация

Теги