Solvita: фреймворк для LLM удвоил точность в соревнованиях по программированию

Современные большие языковые модели (LLM) всё ещё испытывают трудности с задачами, требующими строгих логических рассуждений, особенно в соревновательном программировании. Недавние мультиагентные фреймворки частично решают проблему, но остаются «безсостоянийными»: они полагаются на статический поиск и не накапливают ценный опыт отладки.

Чтобы преодолеть этот недостаток, группа исследователей представила Solvita — фреймворк агентной эволюции, который обеспечивает непрерывное обучение без необходимости обновления весов самой LLM. Solvita организует решение задач в замкнутый цикл: выбор стратегии, синтез программы, сертифицированная проверка и целевое «взламывание». Эти этапы выполняют четыре специализированных агента — Planner, Solver, Oracle и Hacker.

Ключевая особенность Solvita — каждый агент снабжен обучаемой графовой сетью знаний. Когда система работает, сигналы результатов (прохождение тестов, качество сертификации, уязвимости) преобразуются в обновления весов этих сетей по алгоритму обучения с подкреплением. Таким образом, агенты динамически направляют будущие запросы на основе прошлых успехов и неудач.

Авторы провели оценку на нескольких бенчмарках: CodeContests, APPS, AetherCode и в живых раундах Codeforces. Solvita достиг нового уровня качества среди код-генерирующих агентов, превзойдя существующие мультиагентные пайплайны и почти вдвое увеличив точность по сравнению с одношаговыми подходами.

Разработчики отмечают, что Solvita демонстрирует, как накопление переносимого опыта рассуждений может существенно повысить производительность LLM в сложных задачах, не требуя дорогостоящего переобучения модели. Это открывает путь к более адаптивным и эффективным системам автоматического программирования.

Полный текст исследования опубликован на arXiv.