Исследователи представили AttuneBench — бенчмарк для измерения эмоционального интеллекта LLM в диалогах
Группа исследователей представила новый бенчмарк AttuneBench, предназначенный для оценки эмоционального интеллекта (ЭИ) больших языковых моделей (LLM) в условиях реальных многошаговых диалогов. Работа опубликована на платформе arXiv.
В отличие от существующих тестов, которые используют синтетические промпты или однократные сценарии, AttuneBench построен на основе 200 подлинных разговоров между участниками и анонимными LLM. В ходе каждого диалога участники пошагово отмечали своё эмоциональное состояние, поведение модели и желаемый вариант ответа.
Всего было оценено 11 различных LLM по четырём ключевым параметрам: точность распознавания эмоций, корректность классификации поведения, способность предсказывать предпочтения пользователя и качество ответа с точки зрения участника. Исследователи обнаружили, что рейтинги моделей по этим метрикам почти не коррелируют между собой.
«Эмоционально интеллигентное поведение распадается на отдельные способности», — поясняют авторы. Особенно показательным оказалось то, что согласование с предпочтениями (preference alignment) и оценка качества ответа гораздо сильнее различают модели, чем простая точность распознавания эмоций.
Это означает, что для успешного взаимодействия модели необходимо не просто правильно определить эмоцию собеседника, но и понять, какой именно ответ будет уместен в данном контексте. Одномоментные или синтетические тесты, по мнению учёных, не способны уловить эту разницу.
AttuneBench предоставляет фреймворк для оценки каждой из этих составляющих и диагностики сильных сторон и типичных ошибок моделей в эмоционально насыщенных беседах. Разработчики уверены, что инструмент поможет создавать более чуткие и адаптивные диалоговые системы.


