ИИ-агенты научились менять стиль поведения в играх по команде: исследование arXiv

Международная группа исследователей опубликовала работу, в которой описан новый фреймворк для обучения ИИ-агентов, способных менять стиль поведения по команде пользователя. Метод основан на сочетании универсальных аппроксиматоров функций ценности (UVFA) с тщательно подобранными сценариями обучения и аугментацией данных.

В отличие от традиционного обучения с подкреплением, которое обычно вырабатывает одно оптимальное поведение, новый подход позволяет добавлять к базовой задаче модификации, названные авторами стилями. Пользователь может выбирать желаемый стиль в реальном времени, не переобучая агента.

Тестирование проводилось в трёх различных областях. В игре Horizon Forbidden West агенты демонстрировали стили боя, например агрессивный или защитный, при этом сохраняя эффективность прохождения. В гоночном симуляторе Gran Turismo стили вождения варьировались от осторожного до рискованного.

В открытом тестовом домене с человекоподобным роботом агенты показывали разные походки: от спокойной до энергичной. Во всех случаях агенты оставались способными выполнять основную задачу, при этом чётко следуя заданному стилю.

Исследователи подчёркивают, что ключевое преимущество метода — возможность для конечного пользователя гибко управлять поведением ИИ непосредственно во время выполнения задачи. Это открывает новые возможности для видеоигр, робототехники и других сфер, где требуется адаптивное поведение.

Работа опубликована на сервере препринтов arXiv под номером 2607.00642.