RLVR повысил точность малых языковых моделей на Atlassian-задачах до 100%

Стандартное обучение больших языковых моделей нацелено на предсказание следующего токена, но в корпоративных SaaS-средах успех означает точное выполнение последовательности API-вызовов с правильными аргументами. Это несовпадение целей приводит к «молчаливым» сбоям: пропущенным полям, вымышленным инструментам или преждевременному завершению. Исследователи из проекта arXiv:2607.01465 предложили использовать Reinforcement Learning with Verifiable Rewards (RLVR) для прямого обучения агентов в целевой среде.

В качестве доказательства концепции была построена серия из пяти синтетических окружений, эмулирующих API Jira REST v3 и Confluence v2 с точной схемой. Вознаграждение вычислялось исключительно по трассировке вызовов инструментов — без живого API, без обучаемого судьи и без человеческой разметки. Для обучения применялся метод GRPO (Group Relative Policy Optimization) на моделях Qwen3-1.7B и Qwen3.5-4B, причём функции проверки использовались те же, что и при оценке.

Результаты показали, что на четырёх сценариях с невырожденным вознаграждением обученная политика подняла среднюю награду с базового диапазона 0.35–0.92 до 0.95–1.00. Наибольший прирост зафиксирован на задаче создания страницы Confluence — с 0,35 до 1,00. Примечательно, что один из сценариев (переход по тикету) имел насыщающую форму вознаграждения, и базовая модель Qwen3.5-4B уже показывала максимум.

Работа позиционируется как предварительный шаг к созданию компактных моделей, оптимизированных для нишевых корпоративных API. Авторы выделяют два ограничения: ручное создание проверяемых вознаграждений не масштабируется за пределы нескольких конечных точек, использованных в эксперименте. Тем не менее, успешное применение RLVR на малых моделях открывает перспективу для дешёвых и эффективных агентов в закрытых экосистемах вроде Atlassian.

Результаты подтверждают, что прямое обучение через проверяемое вознаграждение позволяет значительно повысить качество выполнения API-задач без необходимости в дорогостоящей разметке или доступе к живым системам. Это особенно ценно для предприятий, где ошибки автоматизации приводят к сбоям в бизнес-процессах.