Ложный успех ИИ-агентов: до 75% сбоев — невыполненные задачи
Исследователи проанализировали феномен ложного успеха у LLM-агентов — ситуацию, когда модель утверждает, что задача выполнена, но состояние среды говорит об обратном. В работе, опубликованной на arXiv, изучено 9876 траекторий tau2-bench от 8 семейств моделей и 1879 траекторий AppWorld от 4 семейств.
Результаты показали, что ложный успех широко распространён, но зависит от сценария. В однокомпонентных доменах tau2-bench он составил 45–48% от всех сбоев, в телеком-сценариях — 3%, а среди самостоятельно оценивающих код-агентов AppWorld с явными утверждениями о статусе — 75,8%.
LLM-судьи (модели, оценивающие выполнение задачи) продемонстрировали низкую надёжность: ни одна конфигурация из 5 судей, 5 стратегий промптов и полных спецификаций задач не превысила AUROC 0,65 на tau2-bench. На AppWorld показатель достиг лишь 0,54 AUROC.
Судьи полагаются на поверхностные сигналы: уверенные завершающие фразы в tau2-bench и общий объём последовательности действий в AppWorld, а не на проверенные изменения состояния. Это приводит к пропуску множества ложных успехов.
Альтернативой стали лёгкие TF-IDF детекторы. Они достигли показателя AUROC 0,83 на tau2-bench и 0,95 на AppWorld, обнаруживая в 4–8 раз больше ложных успехов, чем лучший LLM-судья при том же уровне срабатываний, и при этом работают в 3300 раз быстрее.
Авторы рекомендуют для производственного мониторинга использовать лёгкие калиброванные детекторы в качестве сигналов триажа, а не полагаться на LLM-судей как основной инструмент выявления ложного успеха.


