Новый метод BlendIn повышает эффективность выравнивания LLM на этапе инференса
Большие языковые модели (LLM) требуют выравнивания для безопасной и эффективной работы с пользовательскими инструкциями. Инференс-выравнивание, которое вмешивается только на этапе генерации, считается более дешёвым методом, однако существующие подходы используют подсказки от выровненных моделей без должной оценки их надёжности.
Исследователи провели систематическую оценку эффективности таких подсказок и обнаружили, что она сильно варьируется в зависимости от модели. Неэффективные подсказки приводят к избыточным вмешательствам и, как следствие, к снижению производительности.
Для решения этой проблемы была разработана система BlendIn. Она отходит от бинарного подхода «вмешиваться или нет» и создаёт гибридные распределения, интегрируя знания обеих моделей. BlendIn стабилизирует процесс выравнивания за счёт качественного анализа подсказок и пропорционального взвешивания вклада каждой модели на основе её надёжности.
По сравнению с существующими работами, BlendIn сохраняет полезные подсказки, одновременно снижая вес ненадёжных. Фреймворк предоставляет как диагностические сигналы, так и стратегии смягчения последствий для неправильно направленных подсказок.
На сложных парах моделей BlendIn демонстрирует устойчивое улучшение производительности — до 50%. Код проекта доступен в открытом репозитории на GitHub.


