MapSatisfyBench: бенчмарк для оценки удовлетворённости пользователей при работе с картами
Исследователи разработали новый бенчмарк MapSatisfyBench, предназначенный для оценки способности ИИ-агентов в картографических сервисах учитывать неявные потребности пользователей. Работа основана на крупномасштабных анонимизированных данных реальных пользователей и методологии восстановления полных потребностей из поведенческой цепочки.
В повседневных сценариях пользователи часто формулируют запросы неформально, опуская важные детали. Эти неявные факторы принятия решений могут быть критичны для удовлетворённости, но агенты зачастую их игнорируют, полагаясь на стандартные ответы. Хотя уточняющие вопросы могли бы помочь, они увеличивают нагрузку на пользователя, поэтому предпочтительнее, чтобы агент самостоятельно извлекал скрытые потребности из доступной информации.
Однако оценить эту способность сложно. Во-первых, не каждый неявный фактор подходит для оценки — он должен влиять на принятие пользователем и быть восстановимым из данных, доступных агенту до ответа. Во-вторых, удовлетворённость нельзя свести к одному правильному ответу, поэтому требуется бенчмарк, превращающий факторы удовлетворённости в объективные измеримые цели.
Для решения этих задач авторы предложили фреймворк «восстановить–идентифицировать–отфильтровать». Он реконструирует полные потребности по поведенческим данным, выявляет неявные факторы и оставляет только те, которые подтверждены доказательствами из предзапросного контекста. На этой основе из реальных данных пользователей был построен MapSatisfyBench с разметкой по пяти измерениям, что позволяет проводить полную оценку удовлетворённости агентов.
Эксперименты показали, что современные агенты хорошо справляются с явными задачами, но значительно ограничены в удовлетворении неявных факторов и в проактивном получении доказательств, необходимых для принятия решений, ориентированных на удовлетворённость. Это указывает на необходимость смещения фокуса оценки от простого выполнения задач к учёту скрытых потребностей.
MapSatisfyBench становится важным инструментом для разработки более адаптивных и ориентированных на пользователя картографических сервисов. Он позволяет систематически оценивать и улучшать способность ИИ-агентов понимать и предвосхищать потребности, что критично для повседневного использования.


