Новый метод SELFCI решает проблему конфиденциальности LLM без потери производительности

Редакция RusNews 21-май, 10:53 Наука 1 Искусственный интеллект

Исследователи из ведущих лабораторий разработали новый метод, позволяющий большим языковым моделям (LLM) принимать решения о разглашении информации, не снижая эффективности выполнения задач. Фреймворк получил название SELFCI (Complementary Self-Distillation for Contextual Integrity).

Контекстная целостность (CI) определяет конфиденциальность не просто как сокрытие данных, а как управление потоками информации в соответствии с нормами конкретного контекста. С ростом применения LLM в качестве персональных агентов, работающих с конфиденциальными данными, соблюдение CI становится критически важным. Однако даже самые современные модели ненадёжны в решениях о разглашении, а существующие методы защиты часто ухудшают основную производительность.

SELFCI предлагает новый подход, разделяющий подавление информации и решение задачи. Фреймворк совместно оптимизирует две независимые обратные расходимости Кульбака — Лейблера по различным распределениям учителя, полученным из обратной связи. Одна из них поощряет сохранение релевантной для задачи информации (полезность), а другая — минимальное и уместное разглашение (конфиденциальность).

Такая дополнительная формулировка приводит к целевой функции типа «произведение экспертов» (PoE), которая согласует политику модели с пересечением требований производительности и приватности. В результате модель учится находить баланс, не полагаясь на дорогостоящий внешний контроль.

Эмпирические оценки показали, что SELFCI последовательно превосходит конкурентные базовые линии, включая алгоритмы онлайн-обучения с подкреплением, такие как GRPO. Преимущества сохраняются и в сценариях вне распределения, включающих агентные рабочие процессы и накопленный приватный контекст.

По словам разработчиков, SELFCI предлагает практический путь к обеспечению контекстной целостности в LLM, открывая возможности для более безопасного развертывания моделей в чувствительных областях, таких как здравоохранение, финансы и юридические услуги.

Работа опубликована на сервере препринтов arXiv и доступна для ознакомления под номером 2605.20258.

Новый метод SELFCI решает проблему конфиденциальности LLM без потери производительности

Разделы

Навигация

Теги

Новый метод SELFCI решает проблему конфиденциальности LLM без потери производительности

Читайте также

Разделы

Навигация

Теги