Новый метод SELFCI решает проблему конфиденциальности LLM без потери производительности
Исследователи из ведущих лабораторий разработали новый метод, позволяющий большим языковым моделям (LLM) принимать решения о разглашении информации, не снижая эффективности выполнения задач. Фреймворк получил название SELFCI (Complementary Self-Distillation for Contextual Integrity).
Контекстная целостность (CI) определяет конфиденциальность не просто как сокрытие данных, а как управление потоками информации в соответствии с нормами конкретного контекста. С ростом применения LLM в качестве персональных агентов, работающих с конфиденциальными данными, соблюдение CI становится критически важным. Однако даже самые современные модели ненадёжны в решениях о разглашении, а существующие методы защиты часто ухудшают основную производительность.
SELFCI предлагает новый подход, разделяющий подавление информации и решение задачи. Фреймворк совместно оптимизирует две независимые обратные расходимости Кульбака — Лейблера по различным распределениям учителя, полученным из обратной связи. Одна из них поощряет сохранение релевантной для задачи информации (полезность), а другая — минимальное и уместное разглашение (конфиденциальность).
Такая дополнительная формулировка приводит к целевой функции типа «произведение экспертов» (PoE), которая согласует политику модели с пересечением требований производительности и приватности. В результате модель учится находить баланс, не полагаясь на дорогостоящий внешний контроль.
Эмпирические оценки показали, что SELFCI последовательно превосходит конкурентные базовые линии, включая алгоритмы онлайн-обучения с подкреплением, такие как GRPO. Преимущества сохраняются и в сценариях вне распределения, включающих агентные рабочие процессы и накопленный приватный контекст.
По словам разработчиков, SELFCI предлагает практический путь к обеспечению контекстной целостности в LLM, открывая возможности для более безопасного развертывания моделей в чувствительных областях, таких как здравоохранение, финансы и юридические услуги.
Работа опубликована на сервере препринтов arXiv и доступна для ознакомления под номером 2605.20258.


