PASC: гарантированное покрытие для многоступенчатых NLP и LLM систем
Современные NLP- и LLM-системы часто представляют собой многоступенчатые пайплайны: распознавание именованных сущностей (NER), затем разрешение сущностей (NED), затем типизация; RAG с поиском и чтением; агентные цепочки «планировщик ? инструмент ? критик». Ошибки накапливаются от этапа к этапу, что снижает итоговую достоверность.
Существующие методы количественной оценки неопределённости либо калибруют каждый этап отдельно (без совместного покрытия), либо применяют границу Бонферрони (совместное покрытие, но консервативное). Исследователи из MIT и других лабораторий представили PASC (Pipeline-Aware Split Conformal) — метод, который сводит задачу совместного покрытия нескольких этапов к одному скалярному конформному предсказанию по максимальной мере несоответствия.
PASC даёт конечную выборочную гарантию без предположений о распределении данных: все K этапов одновременно покрываются с вероятностью не менее 1??, причём граница почти точна с точностью до множителя 1/(n+1).
На трёхэтапном пайплайне NER?NED?Entity Typing с данными CoNLL-2003 PASC показал 96,4% сквозного покрытия против 93,4% у метода Бонферрони и 86,5% у независимого CP при одинаковом среднем размере набора предсказаний (1,083). При смещении распределения на Twitter-данные WNUT-17 и Wikipedia-данные WikiNEuRal метод сохранял целевое покрытие, тогда как независимый CP падал до 59%.
По вычислительной эффективности PASC требует однократного вычисления квантиля и работает в 1,7 раза быстрее метода Бонферрони. Метод масштабируется до K=6 этапов, где независимое CP давало лишь 0,53 сквозного покрытия.
Такое же редукционное представление через максимум совместной оценки применимо к составным LLM-системам и агентным пайплайнам, что делает PASC универсальным инструментом для повышения надёжности современных NLP- и AI-архитектур.






