ToolSense выявил разрыв между знанием и поиском инструментов у LLM
Разработчики из SAP представили ToolSense — открытый диагностический фреймворк, который позволяет оценить, насколько большие языковые модели (LLM) действительно понимают инструменты, которыми они могут пользоваться. Исследование опубликовано на arXiv.
Современные LLM, работающие в режиме агентов с обширными каталогами инструментов, сталкиваются с проблемой точного извлечения нужного инструмента. Один из подходов — параметрический поиск, когда каждый инструмент кодируется как виртуальный токен и «вшивается» в модель. Такие модели показывают отличные результаты на стандартных бенчмарках, например ToolBench, где все запросы подробно описаны, а вывод ограничен допустимыми токенами.
ToolSense автоматически генерирует три типа тестов: реалистичный бенчмарк извлечения (RRB) с запросами разной степени неоднозначности, MCQ-тесты и вопросы с открытым ответом. Это позволяет проверить не только способность извлечь инструмент по формальному описанию, но и реальное знание его свойств.
При оценке пяти конфигураций моделей на ToolBench (около 47 тысяч инструментов) выяснилось, что на запросах RRB производительность ряда моделей падает на 50–64 процентных пункта по сравнению с полным бенчмарком — вплоть до уровня ниже простых эмбеддинговых базовых линий. Более того, некоторые модели, отлично справлявшиеся с извлечением, на фактологических вопросах давали почти случайные ответы.
Авторы называют это явление диссоциацией знания и извлечения: модель может найти правильный инструмент в идеальных условиях, но теряет понимание при более естественных запросах. Полученные результаты ставят под сомнение надёжность текущих методов оценки LLM-агентов.
Разработчики открыли исходный код фреймворка и подготовленных бенчмарков на GitHub, чтобы сообщество могло использовать их для проверки своих моделей. ToolSense может стать стандартным инструментом для аудита параметрических знаний LLM о инструментах.


