SPIN: обёртка для LLM-планирования сокращает число шагов и вызовов инструментов
Промышленные LLM-агенты часто разделяют планирование и выполнение, но их планировщики могут выдавать структурно невалидные или излишне длинные последовательности действий. Это приводит к сбоям и лишним затратам на API и инструменты. Исследователи предложили новый метод SPIN (Structural LLM Planning via Iterative Navigation for Industrial Tasks), который решает эту проблему.
SPIN — это обёртка для планирования, объединяющая проверенное планирование на основе направленного ациклического графа (DAG) с префиксным управлением выполнением. Метод принудительно соблюдает строгий DAG-контракт через валидацию и исправление запросов, создавая выполнимые планы до начала выполнения. Затем SPIN оценивает префиксы DAG инкрементально и останавливается, когда текущий префикс уже достаточен для ответа на запрос.
Тестирование на бенчмарке AssetOpsBench (261 сценарий) показало значительное улучшение. Количество выполненных задач сократилось с 1061 до 623 (на 41%), а показатель Accomplished вырос с 0,638 до 0,706. Число вызовов инструментов на один прогон уменьшилось с 11,81 до 6,82, что почти вдвое снижает нагрузку на внешние API.
Дополнительные испытания на MCP Bench подтвердили эффективность подхода. SPIN улучшил показатели, связанные с планированием, заземлением и зависимостями, для моделей GPT OSS1 и Llama 4 Maverick. Таким образом, обёртка одинаково хорошо работает с разными базовыми LLM.
Авторы отмечают, что SPIN не требует изменения самой модели — достаточно лишь добавить слой валидации и управления выполнением. Это делает его практичным решением для интеграции в существующие агентные системы. Результаты опубликованы на arXiv и доступны для ознакомления.



