OSCToM: новый подход к теории разума повысил точность ИИ до 76% на бенчмарке FANToM
Крупные языковые модели (LLM) демонстрируют высокие результаты во многих задачах, но их способность к рассуждениям о ментальных состояниях других – теория разума (Theory of Mind, ToM) – остается неровной, особенно в сложных социальных контекстах. Существующие бенчмарки, такие как ExploreToM, не всегда полноценно тестируют рекурсивные убеждения и информационные асимметрии, которые и создают основные трудности.
Группа исследователей представила новый подход — OSCToM (Observer-Self Conflict Theory of Mind), предназначенный для моделирования вложенных конфликтов убеждений в задачах ToM для LLM. Ключевой сценарий — ситуация, когда взгляд наблюдателя на другого агента вступает в противоречие с собственным убеждением наблюдателя. Такие случаи требуют многослойного рекурсивного мышления, выходя за рамки простой смены перспективы.
OSCToM сочетает обучение с подкреплением (RL), расширенный предметно-ориентированный язык и композиционные суррогатные модели для генерации конфликтов «наблюдатель-самость». В экспериментах модель OSCToM-8B показала наилучшие общие результаты среди протестированных систем. Она улучшила показатели ExploreToM на бенчмарке FANToM и осталась конкурентоспособной на Hi-ToM и BigToM.
На информационно-асимметричном тесте FANToM точность OSCToM достигла 76%, тогда как ExploreToM показывал лишь 0,2%. Кроме того, процедура синтеза данных оказалась в 6 раз эффективнее, что говорит о возможности обучения более компактных моделей сложным когнитивным рассуждениям с помощью целенаправленных тренировочных данных.
Исходный код проекта опубликован в открытом доступе на GitHub, что позволит другим исследователям воспроизвести и развить результаты. Работа размещена на arXiv и еще не прошла рецензирование, но уже привлекает внимание сообщества как шаг к более глубокому пониманию и улучшению социального интеллекта искусственных систем.


