Ученые объяснили, почему онлайн-обучение эффективнее офлайн для языковых моделей с шумными экспертами
В машинном обучении существует давний парадокс: хотя теоретически офлайн-имитационное обучение может быть оптимальным и не зависеть от горизонта, на практике онлайн-методы, такие как on-policy distillation (OPD), часто превосходят офлайн-подходы, включая supervised fine-tuning. Новая работа на arXiv (2606.30923) предлагает объяснение этой разницы через модель шумного эксперта.
Авторы предполагают, что обучаемый агент имеет доступ лишь к зашумленной версии экспертной стратегии, но стремится конкурировать с вознаграждением, достигаемым чистым экспертом. Это мотивировано реальными задачами, например, обучением языковых моделей длинным цепочкам рассуждений, где эксперт часто несовершенен.
Исследование демонстрирует резкое различие между офлайн- и онлайн-имитационным обучением в такой постановке. Офлайн-обучение на зашумленных траекториях оказывается принципиально сложным: чтобы конкурировать с чистым экспертом, объем выборки должен расти экспоненциально, в отличие от случая чистого эксперта, где зависимости от горизонта нет.
В противовес этому, авторы доказывают, что онлайн-взаимодействие с шумным экспертом через новую модификацию OPD позволяет получить полиномиальную зависимость от горизонта в общем случае. Дополнительно показано, что при естественном условии на распределение шума эксперта (которое оказывается необходимым для любой не зависящей от горизонта сложности выборки) можно достичь такой гарантии, хотя предложенный алгоритм жертвует статистической эффективностью в зависимости от размера класса стратегий.
Анализ приводит к альтернативной функции потерь, которая часто используется на практике при обучении языковых моделей. Исследователи также предоставляют алгоритмы и нижние оценки, обобщая результаты на более реалистичный сценарий неизвестного зашумления, когда чистый эксперт детерминирован.
Работа закладывает теоретическую основу для понимания того, почему OPD может превосходить supervised fine-tuning при обучении языковых моделей на основе несовершенных учителей. Это особенно актуально для современных больших языковых моделей, где сбор экспертных данных часто сопряжен с шумом и ошибками.


