Ученые выявили оптимальную конструкцию обвязки для ИИ-агентов: меньше планирования — выше успех

Исследователи представили работу, в которой изучают, как конструкция обвязки (harness) влияет на производительность больших языковых моделей (LLM) при выполнении долгосрочных задач. Под обвязкой понимается программная обёртка, управляющая поведением агента: она разбивает задачу на подцели (декомпозиция) и направляет действия агента в процессе выполнения (управляемое выполнение).

Работа, опубликованная на arXiv, показывает, что более сложные обвязки не всегда лучше. Увеличение глубины декомпозиции или усиление управления может как улучшить, так и ухудшить итоговый успех. Авторы предлагают рассматривать обвязку через призму выравнивания траекторий выполнения на этапе инференса.

Такой подход позволил количественно оценить, как гранулярность рабочего процесса, бюджет повторных попыток и перераспределение вероятностей действий влияют на пределы производительности. Кроме того, были выявлены конкретные сбои: излишняя декомпозиция, чрезмерное отсечение вариантов и галлюцинаторное выполнение.

Эти выводы были подтверждены контролируемыми синтетическими экспериментами и тестами на реальных терминальных агентах. Теория также подсказала, что эффективная обвязка может быть частичной: достаточно указать только начальные шаги, а остальное доверить агенту. В таких условиях коэффициент успешного выполнения задач оказался выше, чем при полностью структурированном рабочем процессе.

Практическая значимость работы в том, что разработчики ИИ-агентов могут упростить обвязку, не теряя, а даже повышая результативность. Это особенно важно для автономных систем, где точность и скорость критичны.