Новый фреймворк PIVOT повышает точность выполнения планов ИИ-агентов на 94%
Группа исследователей представила фреймворк PIVOT (Plan-Inspect-eVOlve Trajectories), который решает проблему расхождения между планированием и выполнением у агентов на основе больших языковых моделей (LLM). Агенты часто генерируют внешне логичные планы, которые терпят неудачу при выполнении из-за невыполнимых действий или накапливающихся ошибок.
PIVOT трактует траектории действий как оптимизируемые объекты, которые итеративно улучшаются через взаимодействие со средой. Метод включает четыре этапа: PLAN (генерация траекторий-кандидатов), INSPECT (выполнение и вычисление структурированных потерь с текстовыми градиентами), EVOLVE (улучшение траекторий на основе сигналов) и VERIFY (финальная проверка на соответствие ограничениям задачи). Монотонный процесс принятия гарантирует неубывающее качество решений.
Эмпирические тесты на бенчмарках DeepPlanning и GAIA показали, что PIVOT устанавливает сильную верхнюю границу производительности. При использовании человеческой обратной связи (HITL) фреймворк достигает до 94% относительного улучшения соблюдения ограничений. Полностью автономный вариант сохраняет значительные преимущества, что подтверждает эффективность механизма оптимизации траекторий даже без внешнего контроля.
Кроме того, PIVOT экономит вычислительные ресурсы: для работы требуется в 3–5 раз меньше токенов по сравнению с конкурирующими методами. Это делает его практичным для применения в реальных системах, где важна скорость и стоимость.
Авторы подчёркивают, что оптимизация траекторий на основе обратной связи (само- или человеческой) является принципиальным подходом для устранения разрыва между планированием и выполнением в автономных агентных системах. Работа доступна в виде препринта на arXiv.


