WarmPrior повышает успех роботов в манипуляциях с помощью временных априорных данных

Генеративные политики на основе диффузионных моделей и flow-matching стали доминирующим подходом в визиомоторном управлении роботами. Однако стандартное использование гауссова распределения в качестве источника не всегда оптимально. Исследователи из семинара представили WarmPrior — простую временно обоснованную априорную структуру, построенную на недавней истории действий робота.

Вместо случайного шума WarmPrior использует доступные данные о предыдущих движениях, что позволяет выпрямить вероятностные пути генерации. Это напоминает эффект оптимального транспорта в Rectified Flow, но не требует сложных вычислений. Как показали эксперименты, замена источника на WarmPrior последовательно повышает успешность выполнения манипуляционных задач.

Помимо стандартного поведенческого клонирования, WarmPrior изменяет распределение исследования в обучении с подкреплением на основе априорных данных. Это улучшает как эффективность выборки, так и итоговую производительность алгоритмов. Таким образом, источник распределения оказывается важным и недооценённым аспектом генеративного управления роботами.

Результаты работы указывают на новый дизайнерский аспект: выбор априорного распределения может быть столь же критичен, как и архитектура модели. WarmPrior предлагает практичный способ улучшить существующие системы без радикального изменения архитектуры.

Разработка открывает путь к более эффективным и надёжным системам управления роботами в условиях реальной среды. Исследование опубликовано на arXiv и доступно для ознакомления.