PersonaDrive: ИИ научили водить в стиле человека — от агрессивного до консервативного

Исследователи из нескольких университетов представили новый подход к имитации стилей вождения в автономных симуляторах. Система PersonaDrive позволяет агентам на основе vision-language-action (VLA) перенимать манеру поведения реальных водителей — от агрессивного до консервативного — без необходимости переобучения для каждого стиля.

Современные замкнутые симуляторы, как правило, используют однотипные модели поведения для не-эго транспортных средств, либо основанные на правилах, либо обученные на единственном сценарии. Чтобы внести разнообразие, исследователи ранее прибегали к постфактум-разметке или автоматическому выводу функций вознаграждения. Однако эти методы лишь приблизительно отражали то, что должно поощряться в том или ином стиле, и не опирались на реальные действия людей, которым было дано явное указание вести машину определённым образом.

PersonaDrive решает эту проблему с помощью трёхэтапного конвейера. На первом этапе выполняется офлайн-майнинг триплетов по данным вождения реальных людей, собранных на тренажёре с водителем в контуре. Участники проходили маршруты из набора CARLA Leaderboard в трёх режимах: агрессивном, нейтральном и консервативном. На втором этапе обучается лёгкая поисковая головка, которая объединяет замороженные визуальные признаки с небольшим контрольным энкодером для каждой стилевой базы данных. На третьем этапе дообучается единый VLA-бэкбон, который использует найденные контекстные точки как поведенческие демонстрации при прогнозировании путевых точек.

Ключевая особенность PersonaDrive — возможность переключать стили без повторного обучения. Достаточно заменить базу данных, к которой обращается поисковая головка, и тот же самый бэкбон начинает вести себя иначе. Это делает систему удобной для генерации разнообразных не-эго агентов в замкнутой симуляции.

На бенчмарке Bench2Drive PersonaDrive без учёта стиля показал улучшение оценки вождения на 4,6% по сравнению с SimLingo и на 2,5% по сравнению с HiP-AD. При использовании стилевых условий система достигла наивысших показателей для каждого стиля с разбросом около 2% — при этом её самый слабый стиль превзошёл сильнейший базиз (DMW) на 5,4%. Средняя скорость и ускорение выросли на 18% и 25% при переходе от консервативной инструкции к агрессивной.

Разработчики отмечают, что PersonaDrive открывает путь к более реалистичным симуляциям с участием виртуальных водителей, чьё поведение напоминает человеческое. Это может быть полезно как для тестирования алгоритмов автономного вождения, так и для обучения систем, способных адаптироваться к различным манерам езды на дороге.