Ученые призвали различать решение симуляторов и их использование как прокси в RL

Группа исследователей опубликовала на arXiv препринт, в котором поднимает важную методологическую проблему в области обучения с подкреплением (RL). Авторы утверждают, что многие работы путают две принципиально разные задачи: решение симулятора как самоцель и использование симулятора как прокси для обучения в реальных условиях.

По мнению ученых, при проведении экспериментов цель достижения высокой производительности в симуляторе часто мутирует в исключительную фокусировку на решении именно этого симулятора. В результате исследователи могут применять решения, разработанные исключительно для симуляторов, которые не работают вне их. Это приводит к тому, что результаты не обобщаются на реальные сценарии.

В работе подробно разбираются различия между двумя использованиями с точки зрения ограничений на взаимодействие агента с симулятором, выбора алгоритмов и метрик оценки. Например, в случае решения симулятора агент может использовать доступ к «внутренностям» среды, в то время как при прокси-подходе он должен действовать так, как если бы симулятор был черным ящиком.

Авторы приводят несколько примеров и простых экспериментов, демонстрирующих, как нечеткое разделение этих подходов ведет к ошибочным выводам. Они показывают, что алгоритм, показывающий выдающиеся результаты в симуляторе, может полностью провалиться при попытке перенести его на другую среду или в реальность.

Статья носит призывный характер: сообществу RL рекомендуется четко указывать, как именно они используют симуляторы в своих работах. Это должно помочь избежать методологических ловушек и улучшить воспроизводимость результатов. Исследователи надеются, что работа стимулирует дискуссию о том, какие эмпирические практики лучше всего подходят для каждого из двух сценариев.