Ученые показали уязвимость алгоритмов сжатия данных: атаки на суммаризацию ИИ
Доверие к искусственному интеллекту требует надёжности не только на этапе принятия решений, но и на ранних этапах обработки данных. К такому выводу пришли авторы новой научной работы, опубликованной на arXiv. Они изучили уязвимость процедур суммаризации данных — сжатия больших массивов в компактные представительные выборки.
Суммаризация данных используется повсеместно: от обработки изображений до подготовки выборок для обучения нейросетей. Если злоумышленник может повлиять на то, какие данные попадут в итоговую сводку, это подрывает доверие ко всей цепочке ИИ: последующие модели могут обучаться на искажённых данных, теряя точность.
В работе исследователи формализовали задачу как многокритериальную оптимизацию с использованием DR-субмодулярного анализа. Они показали, что некоторые популярные алгоритмы суммаризации изображений можно описать как мультилинейные расширения неотрицательных субмодулярных функций. Это позволило построить атаку: злоумышленник вносит минимальные возмущения в структуру сходства данных, чтобы одновременно ухудшить работу нескольких целевых моделей суммаризации.
Разработанная атака оказалась эффективной при небольших и умеренных бюджетах изменений — на реальных данных и контролируемых тестах она снижала качество выделения ключевых элементов и ухудшала последующие задачи классификации. Как отмечают авторы, особенно заметен эффект при многоцелевой атаке: один небольшой сдвиг в данных может нарушить сразу несколько алгоритмов.
В ответ учёные предложили механизм защиты — регулярризованный максиминный алгоритм, который устойчив к смешанным типам атак. Теоретически алгоритм гарантирует приближённо оптимальный баланс между робастностью и качеством суммаризации. Однако эксперименты показали его чувствительность к параметрам: на реальных данных защита требует тонкой настройки.
Работа подчёркивает важность безопасности на всех этапах конвейера ИИ, а не только на финальном уровне принятия решений. Для практического применения предложенных методов потребуется дальнейший анализ и адаптация под конкретные задачи.


