Диагностический подход к настройке вознаграждения повысил успешность ИИ-агентов до 97%

В новой научной работе, представленной на arXiv, исследователи изучили проблему генерации функций вознаграждения с помощью больших языковых моделей (LLM) для задач обучения с подкреплением (RL) с разреженной структурой. Они пришли к выводу, что такой процесс лучше рассматривать как отладку, а не как однократную генерацию.

Авторы выделили два основных типа сбоев при однократном запросе: «затопление вознаграждением» (reward flooding) и неправильное понимание семантики API. Реже встречается случай слабого формирования вознаграждения. На основе этого была разработана таксономия отказов, которая вместе с диагностическими данными тренировки направляет итеративное уточнение функции вознаграждения.

Метод был протестирован на средах MiniGrid (DoorKey-8x8, KeyCorridor) и MuJoCo (непрерывное управление). Результаты впечатляют: успешность агента в DoorKey-8x8 выросла с 2,3% до 97,6%, а в KeyCorridor — с 31,2% до 86,7%. При этом наблюдалась высокая вариативность между разными начальными условиями.

Контрольные эксперименты показали, что улучшения не связаны с простыми повторными попытками или дополнительным обучением. Например, повторный запрос только с метриками приводил к сильному падению результатов. Использование статического словаря позволило восстановить значительную часть эффекта (87,6% и 70,7% соответственно), что указывает на ключевую роль таксономии сбоев в промпте.

Дополнительные сравнения с Budget-matched и Best-of-3 позволили отделить эффект итеративного уточнения от эффектов селекции и времени обучения. Тесты с удалением компонентов, анализ чувствительности и сверка с авторскими метками подтвердили интерпретацию как отладки, но также выявили ограничения калибровки.

В задачах непрерывного управления (MuJoCo) метод показал границы применимости: диагностика, основанная на успехе, может давать ложные срабатывания в задачах с плотным вознаграждением. Обратная связь по тренду возврата убрала один ложноположительный механизм, но не дала надёжного улучшения.

Авторы подчёркивают, что предложенный протокол с низким числом запросов является альтернативой популяционному поиску вознаграждения, а не прямым эталоном сравнения. Метод ограничен задачами с разреженной структурой и надёжными интерфейсами под PPO. Влияние таких факторов, как event_text, может быть разным в зависимости от контекста.