Новый метод диагностики сбоев иерархии инструкций в ИИ: снижение нарушений до 99%

Исследователи из ведущих лабораторий представили диагностический фреймворк, позволяющий локализовать причины сбоев при следовании иерархии инструкций в больших языковых моделях рассуждения. Работа опубликована на arXiv и описывает три ключевых этапа отказа: неверную идентификацию инструкций, неспособность разрешить конфликт или корректный анализ с последующим нарушением в ответе.

На основе тестов на длинноконтекстных версиях бенчмарков IHEval и IHChallenge авторы проанализировали модели Gemma-4-31B-IT, Qwen3.6-35B-A3B и Claude Sonnet 4.6. Выяснилось, что преобладающий тип ошибки зависит от модели, задачи и длины контекста. Например, одни модели чаще неправильно определяют главную инструкцию, другие — допускают нарушения при верном выборе.

Ключевым наблюдением стало то, что модели часто способны верно выявить конфликт, если их явно попросить об этом. Используя этот факт, команда предложила два механизма самоконтроля, не требующих дополнительного обучения: параллельный монитор входа для низкозатратного обнаружения конфликта до генерации ответа и последовательный монитор выхода для проверки и исправления результата.

Эффективность подходов проверили на Gemma-4-31B-IT, Claude Sonnet 4.6 и GPT-5.3. Лучший монитор снизил долю нарушений, связанных с игнорированием правил, на 81-99%. В GPT-5.3 улучшение составило 86% при статических атаках и 45% при адаптивных.

Разработка может быть особенно полезна для агентных систем, где модель должна подчиняться разным инструкциям от пользователя, системы и окружения. Белый ящик делает процесс диагностики прозрачным, позволяя разработчикам быстрее находить и исправлять уязвимости.

Полный текст исследования доступен на arXiv:2606.07808v1.