LLM-дискриминатор: как отличить настоящие данные от синтетических

Редакция RusNews 10-июн, 10:53 Наука 1 Искусственный интеллект

Организации часто используют синтетические данные, чтобы делиться информацией без риска для приватности. Однако проверить, насколько такие данные действительно защищают конфиденциальность, сложно: даже люди не всегда могут отличить синтетическую таблицу от настоящей.

Авторы новой работы, опубликованной на arXiv, предложили использовать большие языковые модели (LLM) в качестве дискриминатора. Модель должна классифицировать каждый образец таблицы как REAL (реальный) или SYNTHETIC (синтетический).

Исследователи протестировали два сценария: C1 — только таблица, C2 — таблица плюс метаданные о распределении. В качестве LLM использовались открытая модель LLaMA и коммерческая Gemini.

Эксперименты проводились на двух публичных наборах данных (UCI Adult и ACS Census) с тремя генеративными моделями: CTGAN, TVAE и Gaussian Copula. Всего было собрано 451 валидный прогон.

Результаты показали заметные различия между моделями. На наборе Adult LLaMA не распознала ни одной синтетической записи (DRS=0%), в то время как Gemini достигла 100% для CTGAN и TVAE. На Census LLaNA предсказывала SYNTHETIC для большинства образцов, а Gemini сохраняла высокую точность в C1, но снижала её для CTGAN и TVAE в C2.

Для сравнения авторы использовали классификатор C2ST и метод связывания записей, а также провели пилотное исследование с участием двух человек (240 попыток). Выяснилось, что LLM-дискриминация может служить практическим сигналом для аудита приватности, если аккуратно выбирать модель, учитывать отчётность провайдера и кодировку данных.

Код и сценарии экспериментов доступны на GitHub для воспроизведения результатов.

LLM-дискриминатор: как отличить настоящие данные от синтетических

Разделы

Навигация

Теги

LLM-дискриминатор: как отличить настоящие данные от синтетических

Читайте также

Разделы

Навигация

Теги