RPSFT: новый метод дообучения ИИ сохраняет обобщающую способность

Стандартное дообучение с учителем (SFT) часто улучшает результаты на целевых данных, но может ухудшать обобщение на другие задачи — это серьёзное ограничение для практического применения больших языковых моделей. Исследователи предложили новый подход, решающий эту проблему.

Как указывается в работе, ухудшение обобщений связано с изменениями доминирующих сингулярных подпространств предобученных матриц весов. Ранее для выявления чувствительных направлений использовали гессиан или информацию Фишера, но эти методы вычислительно затратны для масштабов современных моделей.

Авторы разработали метод Rotation-Preserving Supervised Fine-Tuning (RPSFT). Он вводит штраф за вращение проекций на топ-k сингулярных векторов каждой предобученной матрицы, что служит эффективным и дешёвым прокси для Fisher-чувствительных направлений. Это ограничивает ненужные изменения, сохраняя адаптацию к целевой задаче.

Эксперименты проводились на задачах математического рассуждения с использованием нескольких семейств и размеров моделей. По данным статьи, RPSFT улучшает компромисс между производительностью на целевых и вне-целевых данных по сравнению со стандартным SFT и сильными базовыми методами. Кроме того, метод лучше сохраняет предобученные представления.

Дополнительный плюс: RPSFT обеспечивает более качественную инициализацию для последующего дообучения с подкреплением (RL). Исходный код опубликован на GitHub и доступен для воспроизведения результатов.

Разработка представляет интерес для сценариев, где важно сохранить широкие знания модели, не жертвуя точностью на узкой задаче — например, в диалоговых системах или аналитических ассистентах.