Исследователи представили AttuneBench — бенчмарк для измерения эмоционального интеллекта LLM в диалогах

Редакция RusNews 23-май, 09:15 Наука 1 Искусственный интеллект

Группа исследователей представила новый бенчмарк AttuneBench, предназначенный для оценки эмоционального интеллекта (ЭИ) больших языковых моделей (LLM) в условиях реальных многошаговых диалогов. Работа опубликована на платформе arXiv.

В отличие от существующих тестов, которые используют синтетические промпты или однократные сценарии, AttuneBench построен на основе 200 подлинных разговоров между участниками и анонимными LLM. В ходе каждого диалога участники пошагово отмечали своё эмоциональное состояние, поведение модели и желаемый вариант ответа.

Всего было оценено 11 различных LLM по четырём ключевым параметрам: точность распознавания эмоций, корректность классификации поведения, способность предсказывать предпочтения пользователя и качество ответа с точки зрения участника. Исследователи обнаружили, что рейтинги моделей по этим метрикам почти не коррелируют между собой.

«Эмоционально интеллигентное поведение распадается на отдельные способности», — поясняют авторы. Особенно показательным оказалось то, что согласование с предпочтениями (preference alignment) и оценка качества ответа гораздо сильнее различают модели, чем простая точность распознавания эмоций.

Это означает, что для успешного взаимодействия модели необходимо не просто правильно определить эмоцию собеседника, но и понять, какой именно ответ будет уместен в данном контексте. Одномоментные или синтетические тесты, по мнению учёных, не способны уловить эту разницу.

AttuneBench предоставляет фреймворк для оценки каждой из этих составляющих и диагностики сильных сторон и типичных ошибок моделей в эмоционально насыщенных беседах. Разработчики уверены, что инструмент поможет создавать более чуткие и адаптивные диалоговые системы.

Исследователи представили AttuneBench — бенчмарк для измерения эмоционального интеллекта LLM в диалогах

Разделы

Навигация

Теги

Исследователи представили AttuneBench — бенчмарк для измерения эмоционального интеллекта LLM в диалогах

Читайте также

Разделы

Навигация

Теги