SEAGym: среда для оценки самоэволюционирующих LLM-агентов

Новая среда оценки SEAGym, описанная в препринте на arXiv, предназначена для измерения изменений в обвязке (harness) самоэволюционирующих агентов на основе больших языковых моделей (LLM). Под обвязкой понимается структурированный слой исполнения вокруг базовой модели: промпты, память, инструменты, промежуточное ПО, состояние выполнения и цикл взаимодействия модели с инструментами.

Существующие методы оценки часто сводят процесс эволюции к изолированным показателям задач или одной последовательной кривой, что не позволяет понять, является ли обновление улучшением, не переобучается ли агент на последних задачах, растут ли затраты и не ухудшаются ли старые способности. SEAGym решает эту проблему.

Платформа преобразует совместимые с Harbor бенчмарки в динамические источники задач с тренировочными батчами, замороженными проверками валидации, удержанными in-distribution и out-of-distribution тестами, диагностикой повторения и сохранёнными снимками состояний и метрик.

Исследователи протестировали SEAGym на базах Terminal-Bench 2.0 и HLE (Humanity's Last Exam), сравнив три подхода: ACE, TF-GRPO и AHE. Эксперименты проводились по единому протоколу эпох и батчей.

Результаты показали, что различные оценочные срезы дают взаимодополняющие сигналы. Частые обновления могут не улучшать производительность на удержанных данных; полезные промежуточные снимки иногда коллапсируют позже, а разнообразие исходных данных и бэкенда модели влияет на надёжность обвязки.

SEAGym предоставляет единую среду для разработчиков, желающих объективно оценить, как изменения кода и конфигурации влияют на поведение агента. Это особенно актуально в условиях быстрого прогресса автономных агентов на LLM.