Исследователи предложили метод DiRL для разделения рассуждений и запоминания в обучении LLM
Специалисты в области искусственного интеллекта представили новый подход к обучению больших языковых моделей (LLM) с подкреплением, который позволяет различать моменты, когда модель действительно рассуждает, и когда она просто воспроизводит заученные решения. Работа опубликована в архиве препринтов arXiv.
Современные методы обучения с подкреплением стимулируют разнообразие траекторий решения, но часто не учитывают причину этого разнообразия. Модель может генерировать новый ответ либо за счёт оригинального хода мыслей, либо за счёт вариаций запомненных шаблонов. Награда одинаково поощряет оба случая, что может вести к перекосу в сторону запоминания.
Авторы предложили фреймворк DiRL (Direction-Aware Reinforcement Learning), который определяет внутреннее направление «рассуждение-запоминание» в политике модели. Для этого из представлений модели извлекается направление, на его основе строятся взвешенные градиентные признаки, а затем формируется вознаграждение, усиливающее исследование в русле рассуждений и подавляющее вариации, связанные с запоминанием.
DiRL встраивается в стандартную процедуру GRPO (Group Relative Policy Optimization) без существенных изменений. Эксперименты на математических и общих задачах на рассуждение показали, что новый метод превосходит существующие способы исследования, включая семантическое и градиентное разнообразие.
В тестах на наборе задач по арифметике и логике модели, обученные с DiRL, демонстрировали более высокую точность и лучшую обобщающую способность. Прирост результатов составил до нескольких процентных пунктов по сравнению с базовыми методами.
Разработка может быть полезна для создания более надёжных языковых моделей, способных решать новые задачи, а не просто подбирать знакомые ответы. Пока работа носит исследовательский характер, авторы не называют конкретных сроков внедрения.


