Новый подход на основе разреженных автоэнкодеров борется с нестабильностью предпочтений в LLM
Исследователи выявили проблему нестабильности предпочтений в моделях вознаграждения крупных языковых моделей (LLM). Эти модели, служащие прокси для человеческих оценок, часто дают противоречивые результаты при незначительных семантически инвариантных изменениях входных данных, таких как перефразирование или внедрение шаблонов. Работа опубликована на платформе arXiv.
Авторы связывают нестабильность с чрезмерной опорой на предсказуемые, но хрупкие признаки, названные нестабильными. Для их изоляции использовались разреженные автоэнкодеры (SAE), которые позволили разделить нормальные и возмущённые входные сигналы в разреженном латентном пространстве.
На основе этого разделения были предложены две стратегии смягчения: SAE Feature Steering, которая подавляет аномальную активацию признаков при инференсе, и SAE Residual Correction, обучающая адаптивные корректировки для восстановления правильных предпочтений. Оба метода не требуют переобучения модели вознаграждения.
Эксперименты показали, что предложенные подходы существенно снижают количество неправильных назначений предпочтений на эталонных тестах безвредности и обнаружения галлюцинаций. При этом производительность модели на других задачах не ухудшается.
Код и данные проекта доступны в открытом репозитории на GitHub. Исследование может быть полезно для повышения надёжности систем обучения с подкреплением на основе обратной связи от человека (RLHF).
По словам авторов, их метод является первым шагом к пониманию внутренних механизмов нестабильности предпочтений и может быть расширен на другие типы возмущений.



