Solvita: фреймворк для LLM удвоил точность в соревнованиях по программированию
Современные большие языковые модели (LLM) всё ещё испытывают трудности с задачами, требующими строгих логических рассуждений, особенно в соревновательном программировании. Недавние мультиагентные фреймворки частично решают проблему, но остаются «безсостоянийными»: они полагаются на статический поиск и не накапливают ценный опыт отладки.
Чтобы преодолеть этот недостаток, группа исследователей представила Solvita — фреймворк агентной эволюции, который обеспечивает непрерывное обучение без необходимости обновления весов самой LLM. Solvita организует решение задач в замкнутый цикл: выбор стратегии, синтез программы, сертифицированная проверка и целевое «взламывание». Эти этапы выполняют четыре специализированных агента — Planner, Solver, Oracle и Hacker.
Ключевая особенность Solvita — каждый агент снабжен обучаемой графовой сетью знаний. Когда система работает, сигналы результатов (прохождение тестов, качество сертификации, уязвимости) преобразуются в обновления весов этих сетей по алгоритму обучения с подкреплением. Таким образом, агенты динамически направляют будущие запросы на основе прошлых успехов и неудач.
Авторы провели оценку на нескольких бенчмарках: CodeContests, APPS, AetherCode и в живых раундах Codeforces. Solvita достиг нового уровня качества среди код-генерирующих агентов, превзойдя существующие мультиагентные пайплайны и почти вдвое увеличив точность по сравнению с одношаговыми подходами.
Разработчики отмечают, что Solvita демонстрирует, как накопление переносимого опыта рассуждений может существенно повысить производительность LLM в сложных задачах, не требуя дорогостоящего переобучения модели. Это открывает путь к более адаптивным и эффективным системам автоматического программирования.
Полный текст исследования опубликован на arXiv.



