【扩散对抗】AdvDiffuser: Natural Adversarial Example Synthesis with Diffusion Models

原文标题： AdvDiffuser: Natural Adversarial Example Synthesis with Diffusion Models
原文代码： https://github.com/lafeat/advdiffuser
发布年度： 2023
发布期刊： ICCV

摘要

Previous work on adversarial examples typically involves a fixed norm perturbation budget, which fails to capture the way humans perceive perturbations. Recent work has shifted towards natural unrestricted adversarial examples (UAEs) that breaks `p perturbation bounds but nonetheless remain semantically plausible. Current methods use GAN or VAE to generate UAEs by perturbing latent codes. However, this leads to loss of high-level information, resulting in low-quality and unnatural UAEs. In light of this, we propose AdvDiffuser, a new method for synthesizing natural UAEs using diffusion models. It can generate UAEs from scratch or conditionally based on reference images. To generate natural UAEs, we perturb predicted images to steer their latent code towards the adversarial sample space of a particular classifier. We also propose adversarial inpainting based on class activation mapping to retain the salient regions of the image while perturbing less important areas. On CIFAR-10, CelebA and ImageNet, we demonstrate that it can defeat the most robust models on the RobustBench leaderboard with near 100% success rates. Furthermore, The synthesized UAEs are not only more natural but also stronger compared to the current state-of-the-art attacks. Specifically, compared with GA-attack, the UAEs generated with AdvDiffuser exhibit 6⇥ smaller LPIPS perturbations, 2 ⇠ 3⇥ smaller FID scores and 0.28 higher in SSIM metrics, making them perceptually stealthier. Finally, adversarial training with AdvDiffuser further improves the model robustness against attacks with unseen threat models.

背景

此外，深度模型在现实场景中面临着来自不受限制的对抗性示例（UAE）的更大威胁。UAE可以对图像进行广泛的更改，而不会显着影响人类对其含义和可信度度的感知，因此已成为过去几年对抗性攻击研究的一个突出方向。UAE不像之间使用Lp对噪声点进行截断，那如何判断生成噪声的察觉性成为了一个较重要的问题。

基于梯度的无限制对抗性攻击会在预定义的扰动范围内扰乱原始图像。“Geometry-aware attacks” 使用代理模型来最小化所需的 p 预算，并在无限制对抗性攻击的由较好的效果。另一方面，“perceptual attacks” 使用感知距离的界限来优化扰动。其他人则考虑图像重新着色。然而，选择代理模型和距离度量需要主观先验知识来生成看起来真实的对抗性示例。

生成对抗网络（GAN）等生成模型能够有效地从数据分布中学习和采样。这就是为什么使用它们来生成对抗性示例。这些方法搜索潜在空间中的扰动，这些扰动可能导致目标模型在解码后对图像进行错误分类，以找到对抗性示例。然而，扰动潜在代码以人类感知上显着的方式改变了生成图像的高级语义。这种扰动可能会在某些图像属性中引入歧义，并明显扭曲原始概念，导致UAE通常语义模糊且质量较差。因此，这些UAE在感知上可能与原始示例有很大不同。

创新点

为了解决这些问题，我们提出了 AdvDiffuser，一种基于扩散模型的新型生成式无限制对抗攻击。扩散模型从非平衡热力学中汲取灵感，它定义了添加噪声图像扩散步骤的马尔可夫过程，然后学习反转扩散过程以从噪声图像生成数据样本。这使得经过训练的扩散模型能够以高保真度和多样性对数据分布进行采样。在第3.1节中，我们利用并修改了预训练扩散模型的后向去噪过程，并注入可以成功攻击防御模型的小的对抗性扰动。扩散模型以去噪为目标进行训练，因此可以有效去除明显的对抗性噪声，同时保留攻击能力，从而产生自然出现的UAE。为了实现更现实的结果，我们引入了对抗性修复，它利用从基于梯度的类激活映射（GradCAM）派生的掩模[35]。它根据对象显着性调整每个像素的去噪强度，确保包含重要对象的区域经历较小的修改。由于 AdvDiffuser 在像素级别扰动图像，因此与基于 GAN 的方法生成的感知扰动相比，它产生的感知扰动要小得多。因此，我们的方法生成的最终 UAE 比基于梯度或基于 GAN 的方法合成的阿联酋更加自然且不易察觉。除了图像条件攻击之外，AdvDiffuser 还提供了优于其他无限制对抗性攻击的另一个优势，因为它能够制作无限数量的合成但自然的对抗性示例。这有可能为未来的防御技术提供更全面的鲁棒性训练和评估。

模型

图 1 提供了 AdvDiffuser 算法的高级概述。该算法首先计算受攻击图像的 Grad-CAM，利用防御模型和地面实况标签形成显着对象的掩模。然后，它迭代地使用预训练的扩散模型，对潜在图像 xt 1 进行去噪。随后，对图像执行 2-bounded PGD 攻击。接下来，AdvDiffuser 使用预先计算的掩模在生成的攻击图像和噪声原始图像之间进行插值。通过重复 T 步去噪过程，它形成了一个添加对抗性扰动的过程，同时从注入的噪声中去除不自然的成分。因此，我们可以生成语义上接近原始样本的对抗性示例，但包含基于形状的对抗性扰动，展现出详细的多样性。
在这里插入图片描述

Adversarial Guidance

我们引入对抗性指导，使用扩散模型生成自然对抗性示例。因此，可视为迭代解决以下优化问题：
在这里插入图片描述

在每个步骤中，该过程首先对先前受到扰动的潜在变量 ̃ xt 1 进行去噪，然后引入欺骗防御分类器 f 的对抗性扰动。因此，它形成了一个鞍点解决方案，扩散模型（生成模型）在尽量准确生成数据样本，试图最小化生成样本的负对数似然。而防御分类器则面临增加对抗样本的攻击性，通过增加对抗损失，诱导模型对这些样本的预测出现错误。

为了优化公式（5），我们采用投影梯度下降（PGD）攻击，通过迭代 i∈[0 : I-1] 来找到参考图像 z0 的近似解 zI：
在这里插入图片描述

Pz,ϵ代表噪声的约束。我们进一步使用归一化SCE损失作为最大化目标函数L，而不是传统的SCE损失，因为它被证明更有效地产生成功的攻击。我们令 zI =PGD(z0,f,",I) 表示上述过程。

最后，令ϵ= δβ，其中 δ∈[0, 1] 调整对抗性引导的强度。因此，对抗性扰动始终小于扩散模型使用的噪声尺度，并且随时间递减。

Adversarial Inpainting

对抗性修复基于参考图像创建看起来自然的对抗性示例。该过程确保生成的图像与参考图像非常相似，同时还操纵背景纹理、形状或对象等方面，防御分类器可能将其视为包含不相关的特征。目标是生成一个可以成功欺骗防御分类器的图像，同时最好保留原始图像中的显着对象。

该过程首先使用梯度加权类激活映射（Grad-CAM）识别真实标签 y 的参考图像 x0 中的显着区域。 GradCAM 有助于根据防御分类器 f 定位 y 相应对象的类特定区域。然后，定位进一步归一化为 [0, 1]，成为显着对象的掩码：
在这里插入图片描述
每个去噪步骤 t 中：

实验

Synthetic Adversarial Examples from Scratch
我们首先比较了AdvDiffuser与ACGAN 。为了进行这种比较，我们使用了相同的鲁棒性别分类器，它的自然准确率为97.3%，对PGD-50攻击的鲁棒准确率为76.5%。如表 1 所示，AdvDiffuser 在攻击成功率、FID分数和样本生成速度方面优于 AC-GAN。图 2 可视化生成的UAE，AdvDiffuser可以生成更自然的人脸图像。
UAE
对于图像依赖的UAE合成，我们将AdvDiffuser与当前的SOTA，几何感知（GA）攻击进行了比较。

CIFAR-10

我们使用正常训练的 WideResNet-28-10 模型（标准）作为 CIFAR-10 的standrad，并纳入了 RobustBench 排行榜 [6] 中 '2 扰动中前三名最鲁棒的模型。这些模型是 [29] 中的两个 WideResNet70-16 模型。在前一种模型中（Rebuffi et al.A），使用外部数据进行训练，而后者（Rebuffi等人B）使用由在现有训练数据上训练的DDPM生成的图像。此外，我们还包括Gowal等[10]的WideResNet-70-16模型。如图 4 所示，我们的攻击方法可以生成与原始图像相似但具有不同特征的对抗样本。表 2 提供了各个模型的攻击成功率。在附录 D 中，我们进一步比较了 DiffPure 下的攻击方法，DiffPure 是一种利用扩散模型来净化对抗性扰动的防御机制。

这里没看懂，我怀疑要么表格有错误，要么就是这个方法在CIFAR-10上的攻击效果真的很烂

ImageNet
首先，关于图像的生成质量来说。GA攻击变体通常对防御有效。然而，如图5所示，它们在一定程度上改变了图像的整体颜色，造成了显著的颜色偏移。另一方面，GA-PGD产生的扰动在低信息区域(例如背景天空)很容易被注意到。相比之下，本文的UAEs更加现实。
如表3所示，AdvDiffuser不仅比两种GA变体具有更高的成功率，而且更难以识别，具有更高的SSIM，更低的LPIPS和FID评分。

图6描述了FID、平均l∞、LPIPS和SSIM距离指标w.r.t.攻击成功率，因为我们改变了每次攻击的强度。该图显示，AdvDiffuser的表现一直优于其他，因为除了l∞距离指标外，它对所有指标都产生了微小的变化。排除l∞距离，因为这不是本文优化的目标，图5显示l∞有界攻击产生明显的伪影。此外，它与所考虑的感知指标无关。

在图7中放大并显示了由各自攻击所增加的扰动。研究结果表明，扰动与“形状特定”的变化是一致的，与自然图像分布一致。还证明，即使在明显的扰动下，本文的UAEs也可以保持图像的原始语义内容。这一观察结果验证了将反向去噪过程和对抗引导结合起来产生的扰动更接近于干净图像分布的观点。相反，观察到GA-PGD产生的UAEs具有高频噪声，具有可见的“纹理”偏差，因此可能看起来不太自然。

Robustness against Unseen Threat Models

从表4上是对对抗性训练的CIFAR-10进行了一系列实验，图中“UAE”、“SAE”和“Mixed”都使用 AdvDiffuser 进行对抗性训练。“UAE”使用图像条件的 UAE，“SAE”从头开始生成对抗性示例，最后“Mixed”使用两者来训练鲁棒模型。。对使用传统的l2边界训练的模型，在面临Lp攻击时有较好的对抗鲁棒性。在更多的供给方式下，本文所有的防御都获得了针对所有威的一定程度的鲁棒性。