RL-дообучение сохраняет нейросетевые схемы лучше SFT, выяснили учёные

Исследователи изучили механизмы катастрофического забывания при дообучении больших языковых моделей (LLM). Они сравнили два подхода: обучение с подкреплением (RL) и контролируемую тонкую настройку (SFT). Работа опубликована на arXiv (ID: 2605.28860).

Авторы ввели метрику дифференциальной уязвимости схем (differential circuit vulnerability) на уровне отдельных голов внимания. Она показывает, насколько сильно повреждается внутренняя вычислительная схема модели в процессе дообучения.

Эксперименты проводились на модели Qwen2.5-3B-Instruct при адаптации к научным вопросам и ответам. Результаты выявили чёткий механический компромисс: SFT быстрее адаптируется к целевой задаче, но вызывает значительно большее разрушение исходных схем и забывание предыдущих способностей.

RL, напротив, сохраняет большую часть базовых схем, хотя адаптируется медленнее. По мнению учёных, сохранность схем может быть ключевым фактором, объясняющим устойчивость RL к катастрофическому забыванию.

Открытие имеет практическое значение для разработчиков LLM: выбор метода дообучения должен учитывать не только скорость освоения новой задачи, но и риск потери старых компетенций. Код исследования опубликован на GitHub.

Работа продолжает серию исследований, направленных на понимание внутренних механизмов нейросетей. Ранее behavioural-анализ показал, что обновления policy gradient остаются ближе к исходной политике, чем градиенты SFT. Новое исследование углубляет это понимание до уровня внутренних вычислений.