OmniToM: бенчмарк теории разума для LLM выявил проблему отслеживания убеждений
Теория разума (Theory of Mind, ToM) — способность приписывать другим людям знания, намерения и эмоции. Эта когнитивная функция критична для социального взаимодействия, и её наличие проверяют у больших языковых моделей (LLM). Однако стандартные тесты оценивают лишь конечный ответ на вопрос, не раскрывая, понимает ли модель внутренние состояния персонажей.
Чтобы устранить этот пробел, группа исследователей создала бенчмарк OmniToM. В его основе лежит требование явно моделировать убеждения всех действующих лиц в нарративе. Убеждения представлены как пропозиции — минимальные утверждения о том, что персонаж считает истинным в отношении мира или другого персонажа. Это позволяет анализировать знания, намерения, эмоции и ложные убеждения в едином формате.
OmniToM состоит из двух этапов. На первом этапе (извлечение убеждений) модель определяет из истории все релевантные убеждения, влияющие на социальную динамику. На втором этапе (маркировка убеждений) каждому убеждению присваивается семимерный тег, включающий рекурсивный порядок, статус истинности, доступ к информации, явность, тип содержания, ментальный источник и контекст.
В основу бенчмарка легли 895 историй из существующего корпуса ToMBench, дополненные 22 343 размеченными пропозициями убеждений. Для аннотации использовался калиброванный по человеческим оценкам пайплайн с участием LLM-ассистента. Тестирование проводилось в режиме zero-shot на нескольких современных моделях.
Результаты показали характерное узкое место: модели хорошо справляются с извлечением фактов, но испытывают трудности с преобразованием этих фактов в убеждения конкретных персонажей. Особенно сложными оказались сценарии, требующие учёта доступа персонажа к информации и принятия репрезентационных решений — то есть как именно персонаж представляет себе мир и ментальные состояния других.
По данным исследования, текущие LLM демонстрируют значительный разрыв между хранением фактических знаний и их использованием для построения субъективных моделей сознания. Это ограничение важно для приложений, требующих глубокого понимания намерений пользователя, например, в диалоговых системах и ассистентах.
OmniToM задаёт новый стандарт для оценки теории разума, позволяя точнее диагностировать, насколько модель действительно понимает чужое сознание, а не просто угадывает правильный ответ.


