EVOM: ИИ находит лучшие архитектуры для RL без ручного проектирования

Редакция RusNews 26-июн, 13:44 Наука 1 Искусственный интеллект

Команда исследователей разработала EVOM — фреймворк для автоматического поиска архитектур актор-критик в обучении с подкреплением (RL). Обычно такие сети проектируются вручную, что требует времени и экспертизы. EVOM решает эту задачу с помощью двухуровневой оптимизации: внутренний цикл обучает веса через PPO, а внешний — управляет мета-эволюцией архитектурных программ.

Ключевая особенность EVOM — LLM-агент, который выступает в роли архитектурного дизайнера. Он полностью отделён от выполнения политики и управления средой. Агент генерирует и улучшает программы архитектуры, а мета-эволюционная петля отбирает лучшие варианты.

Эксперименты показали, что EVOM превосходит ручной baseline, LLM-направленный случайный поиск и современный метод MLES. На тестовых средах Ant-v4 и HalfCheetah-v4 фреймворк достиг более высокой производительности.

В ходе ablation studies исследователи подтвердили, что и мета-эволюционный цикл, и LLM-агент критически важны для итогового результата. Без любого из компонентов качество архитектур значительно падало.

Работа открывает путь к полностью автоматизированному проектированию нейросетей для RL, сокращая человеческий труд и потенциально улучшая эффективность обучения. В будущем авторы планируют расширить EVOM на другие типы архитектур и более сложные среды.

EVOM: ИИ находит лучшие архитектуры для RL без ручного проектирования

Разделы

Навигация

Теги

EVOM: ИИ находит лучшие архитектуры для RL без ручного проектирования

Читайте также

Разделы

Навигация

Теги