Новый метод разложения неопределённости повысил точность запросов уточнений у LLM-агентов на 73%

Редакция RusNews 19-июн, 14:45 Наука 1 Искусственный интеллект

Исследователи представили метод разложения неопределённости для больших языковых моделей (LLM), который позволяет агентам активно запрашивать уточнения, когда описание задачи неоднозначно. Работа опубликована на arXiv и предлагает решение для практических ограничений, таких как чёрный ящик API и отсутствие размеченных данных.

Классический подход разделения неопределённости на алеаторную и эпистемическую недостаточен для интерактивных агентов. Авторы разработали промптовую декомпозицию, которая отделяет уверенность в действии от неопределённости запроса. Это позволяет агенту задавать уточняющие вопросы при неоднозначности задания.

Для оценки они создали два бенчмарка с уточнениями: WebShop-Clarification и ALFWorld-Clarification, где 50% задач были намеренно неполными. Метод сравнили с подходами ReAct+UE и Uncertainty-Aware Memory (UAM) на пяти различных LLM: GPT-5.1, DeepSeek-v3.2-exp, GLM-4.7, Qwen3.5-35B и GPT-OSS-120B.

В среднем по пяти моделям на ALFWorld-Clarification предложенный метод улучшил F1 по уточнениям на 73% относительно ReAct+UE и на 36% относительно UAM. На WebShop-Clarification метод превзошёл конкурентов на всех моделях, а на ALFWorld-Clarification — на четырёх из пяти.

Авторы подчёркивают, что результаты обобщаются на разные LLM, а предложенная техника не требует логарифмов вероятностей, множественной выборки или обучения. Это делает её практичной для развёртывания в реальных приложениях, где важна способность агента распознавать неоднозначность.

Разработка может ускорить внедрение LLM-агентов в сценарии, где требуется совместное построение ментальной модели с пользователем и проактивное прояснение неопределённостей.

Новый метод разложения неопределённости повысил точность запросов уточнений у LLM-агентов на 73%

Разделы

Навигация

Теги

Новый метод разложения неопределённости повысил точность запросов уточнений у LLM-агентов на 73%

Читайте также

Разделы

Навигация

Теги