Исследователи улучшили обработку конфликтов знаний в языковых моделях

Исследователи из международной команды представили новый подход к декодированию больших языковых моделей (LLM), решающий проблему конфликтов между внешним контекстом и внутренними параметрическими знаниями. Работа опубликована в репозитории arXiv под названием «From Context-Aware to Conflict-Aware: Generalizing Contrastive Decoding for Knowledge Conflict in LLMs».

Традиционные методы контрастного декодирования (contrastive decoding) работают по принципу «контекстно-ориентированного» усиления: они безусловно отдают приоритет внешнему контексту, что может приводить к ошибкам, когда контекст содержит неточную информацию. Авторы показали, что такие методы на самом деле являются частным случаем более общего семейства — «power family» с присущей асимметрией режимов: экстраполяция бесконечно усиливает ошибки, если модель была права, а интерполяция недостаточно корректирует, если прав контекст.

Для преодоления этого ограничения предложена конфликтно-ориентированная парадигма (conflict-aware decoding). Вместо слепого доверия контексту алгоритм динамически перераспределяет авторитет между параметрическими знаниями модели и внешним контекстом на основе сигналов о конфликте. Ключевая инновация — Adaptive Regime Routing (ARR), который на каждом шаге генерации переключается между разными режимами в зависимости от ситуации.

Чтобы оценить работу методов при всех типах конфликтов, авторы создали бенчмарк TriState-Bench. Он калибрует знания модели и измеряет три состояния: коррекция (когда контекст помогает исправить ошибку модели), сопротивление (когда модель сохраняет свои знания вопреки неверному контексту) и согласие (когда контекст и знания совпадают).

Тестирование показало значительное улучшение: ARR поднял точность сопротивления (resistance EM) с менее 6% до 16–33%, при этом не ухудшив показатели коррекции и согласия. Это означает, что модель стала гораздо реже ошибочно принимать неверный контекст, не теряя способности учиться из правильного.

Исходный код и бенчмарк опубликованы на GitHub. Разработка имеет практическое значение для систем retrieval-augmented generation (RAG), где модели часто сталкиваются с противоречивыми данными из разных источников. По мнению экспертов, конфликтно-ориентированное декодирование может стать важным шагом к более надёжным и адаптивным языковым моделям.