ReCrit: новый метод RL улучшает критическое мышление LLM в научных задачах

Группа исследователей разработала ReCrit — фреймворк обучения с подкреплением, который помогает большим языковым моделям (LLM) корректно обрабатывать критику пользователя в научных задачах. Проблема в том, что модель может не только дать неверный ответ, но и отказаться от изначально правильного решения после замечания, что особенно опасно в научном контексте.

Авторы работы, опубликованной на arXiv, предложили рассматривать взаимодействие как проблему перехода между правильным и неправильным ответом между репликами. Они выделили три ключевых вызова: осознание перехода, отделение полезной коррекции от вредной сикофантии и масштабируемое обучение.

ReCrit разбивает поведение модели на четыре квадранта: коррекция, сикофантия, устойчивость и граница. Фреймворк поощряет коррекцию и устойчивость, штрафует сикофантию и слабо реагирует на устойчивые ошибки. Для практического обучения используется динамический асинхронный роллаут с адаптивным завершением хвоста, что снижает время ожидания.

Тестирование проводилось на трёх бенчмарках: ChemBench, TRQA и EarthSE. На модели Qwen3.5-4B средняя точность при критике выросла с 38,15 до 51,49, а на Qwen3.5-9B — с 45,40 до 55,59. Абляционные эксперименты показали, что награды за финальный ответ дают мало пользы, в то время как награды, учитывающие переходы и веса квадрантов, обеспечивают более различимые обучающие сигналы.

Код ReCrit опубликован на GitHub. Разработчики отмечают, что подход может быть полезен для создания более надёжных научных ассистентов, способных учитывать критику без потери правильного решения.