ICRL: обучение ИИ внутренней самокритике повысило точность на 6–7 пунктов
Исследователи из международной команды предложили новый подход к обучению больших языковых моделей — ICRL (Learning to Internalize Self-Critique with Reinforcement Learning). Метод решает проблему зависимости моделей от внешней критики: обычно модель может исправить ошибку только при наличии подсказки, но без неё снова ошибается. ICRL учит модель самостоятельно улучшать свои ответы.
В основе ICRL лежит совместное обучение двух компонентов — решателя (solver) и критика (critic), которые используют общую базовую нейросеть. Критик получает вознаграждение за то, насколько его замечания помогли решателю. Это стимулирует генерацию действительно полезных советов.
Важная особенность — калибровка распределения. ICRL вводит весовой коэффициент, который отбирает только те улучшения, которые совместимы с типичным поведением модели без критики. Так модель учится улучшать себя самостоятельно, а не полагаться на внешние подсказки.
Авторы протестировали систему на моделях Qwen3-4B и Qwen3-8B. На наборе агентных задач (выполнение действий в среде) прирост точности по сравнению с методом GRPO составил в среднем 6.4 процентных пункта. На задачах математических рассуждений — 7.0 пунктов.
Примечательно, что обученный критик на 8B параметров достиг качества сравнимого с моделью-критиком на 32B параметров, используя при этом гораздо меньше токенов. Это говорит об эффективности подхода к обучению внутренней самокритике.
Исходный код ICRL опубликован на GitHub. Метод может найти применение в областях, где требуется надёжное автономное принятие решений, например, в робототехнике, автоматизированных помощниках и сложных аналитических системах.


