RSEA: новый метод безопасной самоэволюции LLM-агентов без обновления весов
На arXiv опубликована статья, в которой представлен метод RSEA (Recursive Self-Evolving Agent) — рекурсивный самоэволюционирующий агент на базе LLM. Основная идея — улучшать поведение агента не через дообучение, а за счёт эволюции текстовых артефактов, таких как стратегии, навыки и инструкции. Это позволяет использовать замороженную LLM и при этом повышать её эффективность на конкретных задачах.
RSEA хранит компактное трёхслойное состояние: императивную стратегию, переиспользуемые навыки и процедурный плейбук. На каждом шаге эволюции агент переписывает все три слоя, используя собственные траектории, и применяет строгий отбор: новый вариант принимается только в том случае, если он не снижает производительность на отдельной контрольной выборке. Такой механизм исключает регресс и обеспечивает монотонное улучшение.
Эксперименты проводились на четырёх разнородных бенчмарках: ALFWorld (симуляция домашних задач), GAIA (инструментальные задачи), ?-bench (принятие решений) и WebShop (онлайн-покупки). В качестве базовой модели использовался один и тот же локальный LLM. Авторы сравнили RSEA с шестью методами: ReAct, Reflexion, GEPA, AWM, ACE и Dynamic Cheatsheet.
Результаты показали, что ни один метод не является универсальным победителем. RSEA стал сильнейшим одношаговым подходом на ALFWorld, достигнув 69,3% против 64,6% у ReAct (p=0,015), а при разрешении повторных попыток — 79,4%, что стало лучшим абсолютным результатом. Однако на задачах с инструментами (GAIA) лучшим оказался AWM, основанный на индукции рабочих процессов.
Ключевой вывод касается безопасности эволюции. Dynamic Cheatsheet, который накапливает контекст без защитного гейта, показал 70,7% на ALFWorld, но провалился на WebShop, набрав лишь 0,14 против 0,43 у ReAct. RSEA благодаря строгому отбору по контрольной выборке нигде не уступает базовому агенту и откатывается к ReAct, если эволюция вредна.
Таким образом, RSEA демонстрирует, что рекурсивная самоэволюция может быть и эффективной, и безопасной. Метод открывает путь к созданию агентов, которые постепенно улучшаются в процессе работы, не рискуя потерять уже приобретённые навыки. Дальнейшие исследования могут быть направлены на масштабирование подхода на более сложные среды и интеграцию с другими парадигмами обучения.



