Новый метод сертификации устойчивости нейросетей: быстрее и надёжнее
Одна из ключевых проблем в области безопасности искусственного интеллекта — существование состязательных примеров: слегка искажённых входных данных, которые заставляют нейронную сеть ошибаться при классификации. Для защиты от таких атак разрабатываются сертификаты устойчивости — алгоритмы, определяющие максимальное искажение, при котором сеть всё ещё выдаёт правильный прогноз.
Как сообщается в новой работе на arXiv (препринт 2606.23858), большинство существующих методов нацелено на максимизацию объёма сертификата, который представляет собой многомерный гиперпрямоугольник. Однако недавние результаты показали вычислительную сложность поиска оптимального по объёму сертификата за разумное время.
Авторы исследования вводят новую меру — апофему (apothem) — и показывают, как вычислять оптимальные по апофеме сертификаты за линейное количество обращений к верификатору нейронной сети относительно диаметра входного пространства. Кроме того, они доказывают, что не существует алгоритма, основанного на оракуле и ищущего оптимальный по объёму сертификат, даже если не учитывать стоимость обращений к оракулу.
Также представлены двойные сертификаты (dual certifications) — интервалы, включающие все экземпляры одного класса. Они дают минимальные верхние границы по апофеме для сертификата устойчивости, что позволяет сузить область поиска и повысить эффективность.
Разработанная система ParallelepipedoNN протестирована на стандартных наборах данных MNIST и Fashion MNIST. Предварительное сравнение с существующими работами на тех же наборах показало как минимум двукратное улучшение по минимальной длине ребра сертификата — одному из ключевых показателей качества.
Новый подход открывает путь к более надёжной сертификации нейронных сетей в реальных приложениях, где время вычислений имеет критическое значение. Исследователи отмечают, что в перспективе метод может быть адаптирован для более сложных архитектур и больших размерностей входных данных.



