Улучшение теории разума у ИИ: статические тесты не отражают реальное взаимодействие

Редакция RusNews 18-май, 07:07 Наука 1 Искусственный интеллект

Новое исследование, опубликованное на arXiv, ставит под сомнение эффективность традиционных методов оценки теории разума (Theory of Mind, ToM) у больших языковых моделей (LLM). Авторы предлагают пересмотреть подходы к измерению этой способности, которая критически важна для естественного социального взаимодействия между ИИ и человеком.

Традиционные бенчмарки оценивают ToM через чтение историй и ответы на вопросы с выбором ответа от третьего лица. Однако в реальном диалоге ситуация иная: взаимодействие происходит от первого лица, оно динамично и открыто. Исследователи разработали новый парадигм интерактивной оценки ToM, сменив как перспективу, так и метрики.

В рамках работы были изучены четыре репрезентативные техники улучшения ToM. Эксперименты проводились на четырёх наборах реальных данных, а также включали пользовательское исследование. Задачи охватывали как целенаправленные (программирование, математика), так и эмпирические (консультирование) сценарии.

Результаты показали, что улучшения, достигнутые на статических тестах, далеко не всегда трансформируются в более высокое качество взаимодействия в реальном диалоге. Авторы отмечают, что существующие бенчмарки не учитывают динамическую природу человеко-машинного общения.

Полученные данные подчёркивают необходимость внедрения интерактивных методов оценки при разработке социально адаптированных LLM нового поколения. По мнению исследователей, только такой подход позволит добиться настоящего симбиоза человека и искусственного интеллекта.

Улучшение теории разума у ИИ: статические тесты не отражают реальное взаимодействие

Разделы

Навигация

Теги

Улучшение теории разума у ИИ: статические тесты не отражают реальное взаимодействие

Читайте также

Разделы

Навигация

Теги