Goal-Conditioned Supervised Learning: новый метод дообучения LLM превосходит SFT и DPO
Команда исследователей представила на arXiv новый подход к дообучению больших языковых моделей (LLM) под названием Goal-Conditioned Supervised Learning (GCSL). В отличие от популярных методов, таких как Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO), GCSL позволяет использовать graded feedback (оценки степени успешности) без необходимости во внешних моделях вознаграждения или дорогостоящем сборе парных предпочтений.
Идея метода заключается в том, чтобы рассматривать сигналы обратной связи как цели и обучать модель через обычное supervised learning генерировать ответы, достигающие этих целей. Для работы с graded feedback авторы вводят новую формулировку цели: модель учится последовательно превосходить порог качества, что позволяет избежать эффекта ограниченного обучения (bounded-learning), свойственного SFT и классическому GCSL.
В работе также предложено использовать представления целей на естественном языке, что позволяет задействовать семантическое понимание LLM. GCSL тестировался на трёх задачах: генерация нетоксичного контента, генерация кода и рекомендательные системы. Во всех сценариях метод показал более высокие результаты по сравнению с базовыми офлайн-методами дообучения, при этом сохраняя эффективность, масштабируемость и простые требования к данным обычного supervised learning.
Авторы подчёркивают, что GCSL сочетает преимущества офлайн-методов (отсутствие итеративных роллаутов и внешних reward-моделей) с более качественным использованием graded feedback. Это делает подход практичной альтернативой для коммерческого развёртывания LLM, где часто ограничены вычислительные ресурсы и доступ к специализированным данным.
Результаты опубликованы в препринте на платформе arXiv. Полный текст исследования доступен по ссылке arXiv:2605.16345.


