Новый подход на основе разреженных автоэнкодеров борется с нестабильностью предпочтений в LLM

Редакция RusNews 19-май, 12:08 Наука 1 Искусственный интеллект

Исследователи выявили проблему нестабильности предпочтений в моделях вознаграждения крупных языковых моделей (LLM). Эти модели, служащие прокси для человеческих оценок, часто дают противоречивые результаты при незначительных семантически инвариантных изменениях входных данных, таких как перефразирование или внедрение шаблонов. Работа опубликована на платформе arXiv.

Авторы связывают нестабильность с чрезмерной опорой на предсказуемые, но хрупкие признаки, названные нестабильными. Для их изоляции использовались разреженные автоэнкодеры (SAE), которые позволили разделить нормальные и возмущённые входные сигналы в разреженном латентном пространстве.

На основе этого разделения были предложены две стратегии смягчения: SAE Feature Steering, которая подавляет аномальную активацию признаков при инференсе, и SAE Residual Correction, обучающая адаптивные корректировки для восстановления правильных предпочтений. Оба метода не требуют переобучения модели вознаграждения.

Эксперименты показали, что предложенные подходы существенно снижают количество неправильных назначений предпочтений на эталонных тестах безвредности и обнаружения галлюцинаций. При этом производительность модели на других задачах не ухудшается.

Код и данные проекта доступны в открытом репозитории на GitHub. Исследование может быть полезно для повышения надёжности систем обучения с подкреплением на основе обратной связи от человека (RLHF).

По словам авторов, их метод является первым шагом к пониманию внутренних механизмов нестабильности предпочтений и может быть расширен на другие типы возмущений.

Новый подход на основе разреженных автоэнкодеров борется с нестабильностью предпочтений в LLM

Разделы

Навигация

Теги

Новый подход на основе разреженных автоэнкодеров борется с нестабильностью предпочтений в LLM

Читайте также

Разделы

Навигация

Теги