Метод Evoflux поднимает эффективность компактных ИИ-агентов в работе с инструментами до 24%

Компактные языковые модели (LM) привлекательны для использования в агентах благодаря низкой стоимости, задержке и рискам развертывания. Однако работа с инструментами в стиле MCP требует не просто вызова функций: агенту необходимо находить инструменты в живых каталогах, соблюдать схемы, отслеживать зависимости между промежуточными результатами и обосновывать ответы выполненными данными. Небольшие планировщики часто генерируют правдоподобные графы рабочих процессов, которые дают сбой при разрешении инструментов, проверке параметров или выполнении.

Исследователи из arXiv (статья 2606.12674) утверждают, что традиционная дистилляция на малых корпусах плохо справляется с этой проблемой. Несколько сотен примеров от учителя могут обучить формату рабочего процесса, но редко охватывают восстановительное поведение, необходимое для исправления неудачных планов в меняющихся каталогах инструментов.

Предложенный метод Evoflux представляет собой эволюционный поиск во время инференса, который рассматривает компактное использование инструментов как исправление исполняемых рабочих процессов. Алгоритм эволюционирует типизированные графы рабочих процессов через структурированные правки, обратную связь по выполнению, адаптивную интенсивность, мета-направленную переработку и сокращение разнообразия.

На тестовых задачах MCP-Bench с живыми MCP-серверами и 250 инструментами Evoflux повысил выполнимость примерно с 3% до 17–24% для разных компактных планировщиков. Для сравнения: методы SFT и SFT+DPO на тех же данных либо показали результаты на уровне нулевого выстрела, либо ухудшились, либо обрушились ниже него. ReAct достигал более высоких пиков, но с большей дисперсией и затратами токенов.

Эти результаты демонстрируют, что поиск, основанный на выполнении, более надёжен при ограниченном бюджете обучающих примеров от учителя. Evoflux позволяет компактным моделям эффективно адаптироваться к новым инструментам без масштабного переобучения.

Разработка открывает путь к более практичным и экономичным ИИ-агентам, способным работать в динамичных средах с большим набором инструментов. Дальнейшие исследования могут быть направлены на улучшение механизмов эволюции и расширение набора тестовых сценариев.