Новый метод ODRPO повышает точность обучения ИИ без лишних затрат

Редакция RusNews 14-май, 10:21 Наука 1 Искусственный интеллект

Группа учёных предложила новый подход к обучению больших языковых моделей (LLM) с использованием обратной связи от ИИ (RLAIF). Метод, названный Ordinal Decomposition for Robust Policy Optimization (ODRPO), решает проблему шумных оценок, которые ухудшают качество обучения.

При обучении моделей в таких областях, как ответы на вопросы или следование инструкциям, часто применяют автоматические оценки по многобалльной шкале (например, от 1 до 10). Однако эти оценки нестабильны: они зависят от формулировки запроса и случайности выборки. Как показали авторы, даже стандартные методы вроде GRPO и MaxRL могут искажаться из-за шума.

ODRPO преобразует дискретные оценки в последовательность бинарных индикаторов, которые указывают, достигнут ли определённый порог качества. Это позволяет изолировать выбросы и не даёт им испортить общий сигнал обучения. При этом дополнительных вычислительных затрат на каждом шаге не требуется — метод работает с той же частотой обновлений, что и стандартные подходы.

Эксперименты проводились на моделях Qwen2.5-7B и Qwen3-4B. На тесте FACTS-grounding-v2 ODRPO превзошёл базовые методы на 14,8%, а на наборе Alpaca-Evals — на 7,5%. Учёные также подтвердили стабильность оптимизации с помощью теоретического анализа.

По словам разработчиков, ODRPO представляет собой масштабируемый и надёжный фреймворк для выравнивания моделей в условиях шумных дискретных оценок, что особенно актуально для современных систем RLAIF. Результаты опубликованы на платформе arXiv.

Новый метод ODRPO повышает точность обучения ИИ без лишних затрат

Разделы

Навигация

Теги

Новый метод ODRPO повышает точность обучения ИИ без лишних затрат

Читайте также

Разделы

Навигация

Теги