Tandem Reinforcement Learning: обучение ИИ в паре повышает совместимость
Развитие методов обучения с подкреплением с проверяемыми наградами (RLVR) позволило значительно улучшить способность больших языковых моделей к рассуждению, особенно в таких узких областях, как олимпиадная математика. Однако эти успехи часто сопровождаются побочными эффектами: модель начинает мыслить нестандартными, трудно отслеживаемыми для человека или более слабого ИИ-агента паттернами — снижается читаемость, появляется смешение языков.
Для решения этой проблемы была предложена концепция парного обучения (tandem training): сильная «старшая» модель и замороженная «младшая» вместе генерируют каждый шаг рассуждений, а награда выдаётся за командный результат. Таким образом, старшая модель вынуждена адаптировать свой стиль так, чтобы младшая могла за ней следовать. Ранее этот подход демонстрировался лишь в прототипных экспериментах.
В новой работе на arXiv представлен метод Tandem Reinforcement Learning (TRL), который переносит идею парного обучения в контекст RLVR. В TRL старшая и младшая модели поочерёдно участвуют в генерации цепочки рассуждений. Полученный результат оценивается, а затем к старшей модели применяется стандартная функция потерь GRPO (Group Relative Policy Optimization).
Исследователи провели эксперименты на модели Qwen3-4B-Instruct, обучая её на задачах олимпиадной математики. Результаты показали, что TRL по качеству самостоятельных решений не уступает стандартному GRPO, но при этом обладает тремя дополнительными преимуществами, возникающими из той же структуры генерации: более надёжная передача управления между моделями, уменьшение отклонения распределения от поведения младшей модели и более понятная для младшей модели цепочка рассуждений.
Таким образом, TRL предлагает перспективный путь для развития RLVR, имеющий практическую ценность для многомодельной коммуникации и совместимости с человеком. Метод позволяет улучшить взаимодействие между ИИ-агентами разной силы и делает работу сложных моделей более прозрачной.



