Новый метод Dataset Usage Inference определяет долю ваших данных в обучении ИИ-модели

Учёные из области машинного обучения разработали метод, который позволяет владельцам данных узнать, сколько их информации было использовано при обучении модели искусственного интеллекта. Технология получила название Dataset Usage Inference (DUI). Ранее существовавшие подходы для этого требовали создания дорогих теневых моделей и доступа к заведомо неиспользованным данным, что было непрактично для больших нейросетей.

Новый фреймворк полностью избавляется от этих ограничений. Вместо реальных неиспользованных образцов он генерирует синтетические данные, не участвовавшие в обучении. Затем извлекаются разнообразные сигналы членства, и задача сводится к оценке пропорции смеси — статистическому методу, определяющему долю набора данных-кандидата, реально использованную при обучении целевой модели.

Эффективность метода подтверждена экспериментами на больших генеративных моделях изображений. Результаты показывают, что DUI надёжно количественно оценивает вклад конкретного набора данных в обучение, даже при отсутствии информации о точном составе тренировочной выборки.

Разработка имеет прямое практическое значение для защиты данных. Владельцы наборов данных, будь то компании или частные лица, могут теперь независимо проверить, были ли их данные использованы без разрешения при обучении коммерческих или открытых моделей. Это особенно актуально в контексте растущих судебных споров о нарушении авторских прав в сфере ИИ.

Предложенный метод не требует дорогостоящих вычислительных ресурсов для создания теневых моделей, что делает его доступным для широкого круга пользователей. Исследователи отмечают, что подход может быть адаптирован для различных архитектур нейросетей и типов данных.

Работа опубликована в репозитории arXiv и доступна для ознакомления. Разработчики планируют дальнейшее усовершенствование метода для работы с более сложными сценариями, включая случаи, когда данные используются частично или в несколько этапов обучения.