Новый метод BlendIn повышает эффективность выравнивания LLM на этапе инференса

Редакция RusNews 11-июн, 07:04 Наука 1 Искусственный интеллект

Большие языковые модели (LLM) требуют выравнивания для безопасной и эффективной работы с пользовательскими инструкциями. Инференс-выравнивание, которое вмешивается только на этапе генерации, считается более дешёвым методом, однако существующие подходы используют подсказки от выровненных моделей без должной оценки их надёжности.

Исследователи провели систематическую оценку эффективности таких подсказок и обнаружили, что она сильно варьируется в зависимости от модели. Неэффективные подсказки приводят к избыточным вмешательствам и, как следствие, к снижению производительности.

Для решения этой проблемы была разработана система BlendIn. Она отходит от бинарного подхода «вмешиваться или нет» и создаёт гибридные распределения, интегрируя знания обеих моделей. BlendIn стабилизирует процесс выравнивания за счёт качественного анализа подсказок и пропорционального взвешивания вклада каждой модели на основе её надёжности.

По сравнению с существующими работами, BlendIn сохраняет полезные подсказки, одновременно снижая вес ненадёжных. Фреймворк предоставляет как диагностические сигналы, так и стратегии смягчения последствий для неправильно направленных подсказок.

На сложных парах моделей BlendIn демонстрирует устойчивое улучшение производительности — до 50%. Код проекта доступен в открытом репозитории на GitHub.

Новый метод BlendIn повышает эффективность выравнивания LLM на этапе инференса

Разделы

Навигация

Теги

Новый метод BlendIn повышает эффективность выравнивания LLM на этапе инференса

Читайте также

Разделы

Навигация

Теги