Новый фреймворк поддержки ИИ-агентов сокращает ошибки и лишние обращения
Современные ИИ-агенты всё чаще действуют от имени пользователей, однако их ошибки могут иметь серьёзные последствия. Традиционные подходы к поддержке решений, где человек использует модели, перестают работать — теперь агент выступает главным действующим лицом, а поддержка становится вспомогательной.
Новая работа на arXiv предлагает формальную основу для стратегической поддержки таких агентов. Ключевая идея — оптимизировать использование поддержки так, чтобы минимизировать количество обращений, но при этом контролировать так называемую «counterfactual missed-support error» — вероятность того, что агент действует сам в ситуациях, где поддержка существенно улучшила бы результат.
Авторы формулируют задачу как оптимизационную: при заданном ограничении на ошибку пропущенной поддержки они ищут политику, которая использует поддержку наименее часто. На популяционном уровне оптимальным оказывается пороговое правило на основе ценности поддержки.
На основе этой структуры разработан онлайн-алгоритм, который адаптивно настраивает порог и использует рандомизированное исследование для контроля ошибки без предположений о распределении данных. Кроме того, предложен метод калибровки на лету, позволяющий сократить ненужные вызовы поддержки в процессе работы.
Эффективность подхода продемонстрирована в нескольких сценариях: сбор информации, взаимодействие человека и ИИ, использование инструментов. Во всех случаях алгоритм надёжно удерживал целевую ошибку, существенно уменьшая количество запросов на поддержку.
Разработка открывает путь к более надёжным и экономичным автономным системам, где ИИ-агенты могут действовать уверенно, обращаясь за помощью только тогда, когда это действительно необходимо.


