Единая нейросеть обучилась решать тысячи задач в робототехнике, автопилотах и играх

Группа исследователей опубликовала препринт, в котором описала Large Decision Model v0 (LDM-v0) — единую transformer-политику, предназначенную для решения широкого спектра задач обучения с подкреплением (RL). В отличие от традиционного подхода, требующего отдельной модели для каждой задачи, LDM-v0 обучается сразу на тысячах различных сред.

Для обучения модели использовались данные офлайн-траекторий — последовательностей наблюдений, действий, вознаграждений и сигналов завершения эпизода. Архитектура модели основана на transformer, что позволяет ей обрабатывать разнородные модальности входных данных. Обучение проводилось методом контролируемого предсказания следующего действия.

Авторы создали инфраструктуру для автоматического сбора данных из тысяч сред, охватывающих несколько доменов: робототехника, автономное вождение, управление запасами, кибербезопасность, торговля и видеоигры. Всего модель проверялась примерно на 1000 различных сред.

Результаты показали, что одна предобученная модель LDM-v0 достигает производительности, сопоставимой с отдельными специализированными политиками, обученными для каждой задачи. Это подтверждает возможность масштабирования офлайн-обучения на гетерогенные данные RL с помощью единого transformer.

По мнению исследователей, данный подход открывает путь к созданию универсальных агентов, способных адаптироваться к новым задачам без переобучения. В перспективе такие модели могут быть применены в промышленной автоматизации, системах управления и интеллектуальных сервисах.

Подробности работы доступны в архиве препринтов arXiv.