Учёные нашли способ эффективнее отбирать пары для обучения LLM методом DPO

Международная группа учёных представила новую методику отбора пар сравнения для пост-тренировки больших языковых моделей (LLM) методом Direct Preference Optimization (DPO). Работа опубликована на arXiv и посвящена повышению эффективности сбора данных для выравнивания моделей.

В основе DPO лежит сравнение двух вариантов ответа модели на один запрос, после чего эксперт отмечает предпочтительный вариант. Традиционно для каждого запроса генерируют небольшое количество ответов и метят все возможные пары. Однако разметка требует значительных ресурсов: по оценкам авторов, она гораздо дороже, чем генерация дополнительных ответов.

Учёные предложили альтернативу: сначала генерировать пул из множества ответов, а затем выбирать для разметки только самые информативные пары. Они сформулировали задачу отбора пар как проблему дизайна выборки и проанализировали влияние выбора пар на итоговое качество политики, обученной с помощью DPO.

В работе получены верхние и нижние границы разрыва оптимальности после обучения. Выяснилось, что эффективность выбора пар определяется одной матрицей информации, которая связывает распределение меток с ошибкой оценки параметров и субоптимальностью политики. На основе этой матрицы исследователи вывели явный критерий оптимизации для отбора пар при ограниченном бюджете разметки.

Эксперименты на синтетических данных и бенчмарках для языковых моделей показали, что предложенный метод стабильно превосходит распространённые эвристики по эффективности использования выборки. Разработка может существенно ускорить процесс выравнивания LLM, снизив затраты на человеческую разметку.

Исследование подтверждает, что внимание к качеству, а не количеству размеченных пар может стать ключом к более эффективному обучению моделей. Авторы планируют адаптировать методику для других алгоритмов предпочтительного обучения.