Calibrated Interactive RL: новый подход к тренировке диалоговых ИИ-агентов
Современные диалоговые агенты на основе больших языковых моделей (LLM) сталкиваются с проблемой распределительного смещения контекста: модели обучаются на фиксированных историях диалогов, а в реальности взаимодействуют с совершенно другими сценариями. Это приводит к квадратичному ухудшению качества диалога с каждым новым шагом.
Существующие подходы делятся на два лагеря: обучение по статическим логам (Static Context RL) и использование симулятора на основе промптов (Interactive RL). Однако обе парадигмы фундаментально ограничены из?за смещения контекста — несоответствия между диалоговыми историями, наблюдаемыми во время обучения, и теми, что встречаются в реальных разговорах.
В новой работе исследователи теоретически показали, что это смещение вызывается двумя независимыми источниками. Первый — смещение, вызванное политикой (policy?induced shift), возникающее из?за обучения на статических историях вместо собственных траекторий агента. Второй — смещение, вызванное симулятором (simulator?induced shift), обусловленное расхождениями между симулированным и реальным поведением людей.
Для решения этих проблем авторы предложили Calibrated Interactive RL — единый фреймворк, который сочетает интерактивное обучение с подкреплением и калибровку симулятора. Калибровка симулятора по реальным паттернам человеческого поведения сокращает разрыв между симуляцией и реальностью, тем самым уменьшая накопление смещений.
В ряде экспериментов на различных диалоговых задачах новый метод значительно превзошёл статические базовые подходы. Уже само интерактивное обучение с подкреплением (без калибровки) показало улучшение по сравнению со Static Context RL, а калибровка симулятора дополнительно повысила качество, позволив достичь наилучших результатов на момент публикации.
Данная работа приближает создание по?настоящему интерактивных диалоговых агентов, способных адаптироваться к изменяющимся контекстам в реальном времени. Разработчики LLM?решений могут использовать предложенный фреймворк для улучшения качества своих диалоговых систем.


