Эволюционные алгоритмы превзошли ручное проектирование в поиске оптимальных графиков вознаграждения для ИИ
Учёные из неопределённого университета разработали эволюционный подход к автоматическому обнаружению графиков вознаграждения для агентов глубокого обучения с подкреплением (deep RL). Традиционно временная структура вознаграждения проектируется вручную и остаётся фиксированной на протяжении всего обучения, что оставляет мало места для адаптации. Новая работа предлагает динамически изменять веса трёх биологически вдохновлённых компонентов мотивации: агентности, новизны и реактивности.
В рамках исследования сравнивались четыре эволюционных алгоритма: CMA-ES, xNES, DE и L-SHADE. Они тестировались на двух задачах с разреженным вознаграждением из набора MiniGrid — DoorKey-6x6 и KeyCorridorS3R1. В качестве базового сравнения использовался метод с чисто внешним вознаграждением, а также три дополнительных ручных подхода.
На задаче DoorKey-6x6 все эволюционные методы показали лучшие результаты, чем неэволюционные базовые линии. Лучшим оказался алгоритм L-SHADE, который продемонстрировал относительное среднее улучшение на 11,4% по сравнению с базовым методом исключительно внешнего вознаграждения.
На задаче KeyCorridorS3R1 наилучшие результаты показал CMA-ES. Остальные эволюционные методы показали более слабую и менее надёжную обобщающую способность по сравнению с базовым внешним вознаграждением. Примечательно, что обнаруженные графики вознаграждения отошли от заранее заданного порядка развития: новизна последовательно оказывалась доминирующим сигналом на ранних этапах обучения в обеих задачах.
Авторы считают, что полученные результаты позиционируют эволюционную оптимизацию как перспективный подход для поиска графиков вознаграждения в глубоком обучении с подкреплением. Они также отмечают, что найденные эволюцией оптимальные решения в вычислительных средах могут отличаться от биологически оптимальных.
Исходный код проекта доступен на GitHub по ссылке: https://github.com/alannadels/Evolutionary_RL.git.


