POLAR-Bench: передовые LLM скрывают 99% приватных данных, малые — утекает половина

Группа исследователей опубликовала работу с описанием POLAR-Bench — нового диагностического бенчмарка для оценки баланса между приватностью и полезностью у агентов на основе больших языковых моделей (LLM). По данным исследования, такие агенты всё чаще получают доступ к личным данным пользователей и действуют от их имени при взаимодействии с третьими лицами.

В рамках бенчмарка LLM-агент с заданной политикой конфиденциальности общается с моделью-атакующим, которая пытается извлечь как полезные для задачи, так и защищённые атрибуты. Тестирование проводилось на 10 доменах и 7 852 примерах. Каждый сценарий оценивался по двум осям: уровень строгости политики и тип атакующей стратегии.

Результаты выявили резкий разрыв: передовые коммерческие модели успешно скрывают более 99% защищённых атрибутов, выполняя при этом поставленную задачу. В то же время малые модели с открытым весом в диапазоне 1–30 млрд параметров — тот класс, который пользователи чаще всего запускают на своих устройствах или через приватный инференс — показали значительно худшие результаты. Самая слабая модель утекла более половины чувствительных данных.

POLAR-Bench позволяет локализовать, на каком именно этапе у конкретной модели происходит сбой в следовании политике конфиденциальности. Благодаря этому разработчики могут целенаправленно улучшать приватность моделей, особенно в тех сегментах, где она наиболее уязвима.

Авторы подчёркивают, что по мере распространения LLM-агентов в повседневных приложениях — от ассистентов до автоматизации рабочих процессов — защита приватности становится критически важной. Бенчмарк доступен для сообщества и может стать стандартным инструментом проверки соответствия моделей пользовательским политикам.