CSA: новый метод гарантирует безопасность LLM в каждом раунде развертывания

Редакция RusNews 21-май, 12:26 Наука 1 Искусственный интеллект

Группа исследователей опубликовала в архиве arXiv препринт, описывающий новый метод Conformal Selective Acting (CSA). Этот алгоритм предназначен для обеспечения гарантий безопасности при развертывании специализированных языковых моделей (LLM), дообученных с помощью подкрепления на основе проверяемых вознаграждений (RLVR) на локальных данных.

Ключевая проблема, которую решает CSA, — это необходимость выдавать сертификат безопасности для каждого раунда работы модели, не полагаясь на усреднение ошибок в долгосрочной перспективе. Существующие подходы, такие как офлайн-конформные методы, требуют обмена данными между развертываниями, а онлайн-конформные контролируют только средний уровень ошибок, что недостаточно для строгих регуляторных требований.

CSA работает как обёртка вокруг модели, поддерживая для каждого порога риска так называемый e-процесс по типу Вилле на сетке Бонферрони. Это позволяет в каждый момент времени оценивать селективный риск — долю ошибочных решений среди тех, что модель приняла, не отказавшись от ответа. Авторы доказали, что при предсказуемых обновлениях и изотонически калиброванном монотонном риске CSA обеспечивает ани-тайм (anytime) валидность с границей ошибки не более ? + O(N^-1/2) и оптимальную по скорости сертификацию.

Практическая проверка проводилась на восьми специализированных бенчмарках (480 потоков данных), шестнадцати ячейках с адверсариальным сдвигом распределения (160 потоков) и пяти живых экспериментах с итерацией эксперта (Expert-Iteration) на базе четырёх моделей трёх архитектурных семейств (всего 10 300 раундов). Среди десяти сравниваемых методов только CSA одновременно выполнял требование путевой валидности (pathwise validity) и не отказывался от ответа ни в одном из сценариев.

Авторы подчёркивают, что CSA не является новой LLM или алгоритмом обучения — это инфраструктурное дополнение со стороны развёртывания, ортогональное самой модели. Метод ориентирован на операторов, которые не могут использовать коммерческие облачные API и должны гарантировать безопасность каждого шага работы в регулируемой среде.

Результаты демонстрируют практическую применимость CSA для задач, где критична строгая гарантия ошибки без накопления, что особенно актуально для финансовых, медицинских и юридических приложений с LLM.

CSA: новый метод гарантирует безопасность LLM в каждом раунде развертывания

Разделы

Навигация

Теги

CSA: новый метод гарантирует безопасность LLM в каждом раунде развертывания

Читайте также

Разделы

Навигация

Теги