SkillJuror: организация навыков ИИ-агентов оказалась важнее их содержания
Исследователи из нескольких университетов разработали SkillJuror — фреймворк для оценки того, как способ организации навыков (skill organization) влияет на работу больших языковых моделей (LLM) в качестве агентов. Работа опубликована на arXiv.
В отличие от большинства бенчмарков, которые фокусируются на содержании навыков, SkillJuror изучает их структуру. Авторы сравнили два подхода: Progressive Disclosure — когда корневой файл кратко описывает навык и направляет агента к дополнительным ресурсам по запросу, и нормализованный плоский базовый вариант — где вся информация представлена единым блоком.
Эксперимент проводился на 82 задачах из набора SkillsBench. Оказалось, что Progressive Disclosure существенно меняет поведение агентов: количество уникальных ресурсов, к которым обращается агент за одну траекторию, выросло с 1,18 до 3,85, а число случаев эффективного использования ресурсов — с 1,33 до 3,92. Кроме того, в 410 парных испытаниях Progressive Disclosure дал на 17 успешных запусков больше, чем плоский вариант (+4,1%).
Однако выигрыш оказался зависим от задачи. Прогрессивное раскрытие помогает, когда вспомогательные ресурсы направляют реализацию, проверку или исправление. Но оно слабее, когда успех зависит от точных выходных форматов, числовых порогов или длинных конвейеров генерации артефактов.
По мнению авторов, результаты показывают, что организация навыков — не просто вопрос подачи: она меняет то, как агенты ищут и применяют процедурные знания. При этом итоговая польза определяется тем, насколько раскрываемые ресурсы могут быть использованы для конкретной задачи.
Код фреймворка доступен на GitHub. Исследование подчёркивает важность структурирования инструкций для ИИ-агентов и может повлиять на проектирование будущих систем.


