Метод ACTION-RATING научил ИИ-агентов вовремя запрашивать уточнения
Исследователи из arXiv опубликовали работу, посвящённую проблеме принятия решений в иерархических языковых агентах. Часто такие системы ошибаются на промежуточных этапах, не осознавая, что им не хватает информации. Новый метод ACTION-RATING предлагает явно учитывать возможность запроса уточнения на каждом шаге.
Вместо того чтобы рассматривать уточнение как внешнее событие, авторы включили его в пространство действий агента на одной порядковой шкале с навигацией. Это позволяет агенту конкурировать между действием и запросом помощи в каждой точке принятия решения.
Из собственных оценок агента выделяются два режима: обязательный — когда ни одна ветвь не является жизнеспособной, и оппортунистический — когда есть ведущий кандидат, но сохраняется неопределённость. Тестирование проводилось на задачах классификации Гармонизированной тарифной сетки (таксономия из 30 000 узлов, три бенчмарка, 9 языковых моделей из 4 семейств).
Результаты показали сдвиг от обязательного к оппортунистическому уточнению. Эффективность запроса информации (ISE), измеряемая как доля случаев, когда после помощи агент делает правильный следующий шаг, выросла с 50% до 74%. Это локальная метрика, не связанная с итоговой точностью задачи.
Три диагностических контраста не смогли воспроизвести эту структуру. Тест на разделимость показал, что паттерн запроса информации сохраняется даже при ухудшении качества ответов (падение точности на 18,8%), что подтверждает эмпирическое разделение между тем, где агент просит помощь, и качеством самой помощи.
В контролируемом канале ответов прирост точности достиг +16,2% на 10-значном уровне классификации. Авторы отмечают, что это скорее верхняя граница того, что может дать лучшее позиционирование запросов, а не оценка для практического развёртывания.
Разработка позволяет агентам более осознанно выбирать момент для уточнения, что особенно важно для сложных иерархических задач в таможне, логистике и других областях, где ошибки на ранних этапах критичны.


