EVOM: ИИ находит лучшие архитектуры для RL без ручного проектирования
Команда исследователей разработала EVOM — фреймворк для автоматического поиска архитектур актор-критик в обучении с подкреплением (RL). Обычно такие сети проектируются вручную, что требует времени и экспертизы. EVOM решает эту задачу с помощью двухуровневой оптимизации: внутренний цикл обучает веса через PPO, а внешний — управляет мета-эволюцией архитектурных программ.
Ключевая особенность EVOM — LLM-агент, который выступает в роли архитектурного дизайнера. Он полностью отделён от выполнения политики и управления средой. Агент генерирует и улучшает программы архитектуры, а мета-эволюционная петля отбирает лучшие варианты.
Эксперименты показали, что EVOM превосходит ручной baseline, LLM-направленный случайный поиск и современный метод MLES. На тестовых средах Ant-v4 и HalfCheetah-v4 фреймворк достиг более высокой производительности.
В ходе ablation studies исследователи подтвердили, что и мета-эволюционный цикл, и LLM-агент критически важны для итогового результата. Без любого из компонентов качество архитектур значительно падало.
Работа открывает путь к полностью автоматизированному проектированию нейросетей для RL, сокращая человеческий труд и потенциально улучшая эффективность обучения. В будущем авторы планируют расширить EVOM на другие типы архитектур и более сложные среды.


