Новый метод ODRPO повышает точность обучения ИИ без лишних затрат

Группа учёных предложила новый подход к обучению больших языковых моделей (LLM) с использованием обратной связи от ИИ (RLAIF). Метод, названный Ordinal Decomposition for Robust Policy Optimization (ODRPO), решает проблему шумных оценок, которые ухудшают качество обучения.

При обучении моделей в таких областях, как ответы на вопросы или следование инструкциям, часто применяют автоматические оценки по многобалльной шкале (например, от 1 до 10). Однако эти оценки нестабильны: они зависят от формулировки запроса и случайности выборки. Как показали авторы, даже стандартные методы вроде GRPO и MaxRL могут искажаться из-за шума.

ODRPO преобразует дискретные оценки в последовательность бинарных индикаторов, которые указывают, достигнут ли определённый порог качества. Это позволяет изолировать выбросы и не даёт им испортить общий сигнал обучения. При этом дополнительных вычислительных затрат на каждом шаге не требуется — метод работает с той же частотой обновлений, что и стандартные подходы.

Эксперименты проводились на моделях Qwen2.5-7B и Qwen3-4B. На тесте FACTS-grounding-v2 ODRPO превзошёл базовые методы на 14,8%, а на наборе Alpaca-Evals — на 7,5%. Учёные также подтвердили стабильность оптимизации с помощью теоретического анализа.

По словам разработчиков, ODRPO представляет собой масштабируемый и надёжный фреймворк для выравнивания моделей в условиях шумных дискретных оценок, что особенно актуально для современных систем RLAIF. Результаты опубликованы на платформе arXiv.