CSA: новый метод гарантирует безопасность LLM в каждом раунде развертывания
Группа исследователей опубликовала в архиве arXiv препринт, описывающий новый метод Conformal Selective Acting (CSA). Этот алгоритм предназначен для обеспечения гарантий безопасности при развертывании специализированных языковых моделей (LLM), дообученных с помощью подкрепления на основе проверяемых вознаграждений (RLVR) на локальных данных.
Ключевая проблема, которую решает CSA, — это необходимость выдавать сертификат безопасности для каждого раунда работы модели, не полагаясь на усреднение ошибок в долгосрочной перспективе. Существующие подходы, такие как офлайн-конформные методы, требуют обмена данными между развертываниями, а онлайн-конформные контролируют только средний уровень ошибок, что недостаточно для строгих регуляторных требований.
CSA работает как обёртка вокруг модели, поддерживая для каждого порога риска так называемый e-процесс по типу Вилле на сетке Бонферрони. Это позволяет в каждый момент времени оценивать селективный риск — долю ошибочных решений среди тех, что модель приняла, не отказавшись от ответа. Авторы доказали, что при предсказуемых обновлениях и изотонически калиброванном монотонном риске CSA обеспечивает ани-тайм (anytime) валидность с границей ошибки не более ? + O(N-1/2) и оптимальную по скорости сертификацию.
Практическая проверка проводилась на восьми специализированных бенчмарках (480 потоков данных), шестнадцати ячейках с адверсариальным сдвигом распределения (160 потоков) и пяти живых экспериментах с итерацией эксперта (Expert-Iteration) на базе четырёх моделей трёх архитектурных семейств (всего 10 300 раундов). Среди десяти сравниваемых методов только CSA одновременно выполнял требование путевой валидности (pathwise validity) и не отказывался от ответа ни в одном из сценариев.
Авторы подчёркивают, что CSA не является новой LLM или алгоритмом обучения — это инфраструктурное дополнение со стороны развёртывания, ортогональное самой модели. Метод ориентирован на операторов, которые не могут использовать коммерческие облачные API и должны гарантировать безопасность каждого шага работы в регулируемой среде.
Результаты демонстрируют практическую применимость CSA для задач, где критична строгая гарантия ошибки без накопления, что особенно актуально для финансовых, медицинских и юридических приложений с LLM.



