WarmPrior повышает успех роботов в манипуляциях с помощью временных априорных данных
Генеративные политики на основе диффузионных моделей и flow-matching стали доминирующим подходом в визиомоторном управлении роботами. Однако стандартное использование гауссова распределения в качестве источника не всегда оптимально. Исследователи из семинара представили WarmPrior — простую временно обоснованную априорную структуру, построенную на недавней истории действий робота.
Вместо случайного шума WarmPrior использует доступные данные о предыдущих движениях, что позволяет выпрямить вероятностные пути генерации. Это напоминает эффект оптимального транспорта в Rectified Flow, но не требует сложных вычислений. Как показали эксперименты, замена источника на WarmPrior последовательно повышает успешность выполнения манипуляционных задач.
Помимо стандартного поведенческого клонирования, WarmPrior изменяет распределение исследования в обучении с подкреплением на основе априорных данных. Это улучшает как эффективность выборки, так и итоговую производительность алгоритмов. Таким образом, источник распределения оказывается важным и недооценённым аспектом генеративного управления роботами.
Результаты работы указывают на новый дизайнерский аспект: выбор априорного распределения может быть столь же критичен, как и архитектура модели. WarmPrior предлагает практичный способ улучшить существующие системы без радикального изменения архитектуры.
Разработка открывает путь к более эффективным и надёжным системам управления роботами в условиях реальной среды. Исследование опубликовано на arXiv и доступно для ознакомления.


