Transferable Multimodal Attack on Vision-Language Pre-training Models

研究背景

随着深度神经网络（DNNs）在各种机器学习任务中的成功应用，它们在面对不可感知的对抗性示例时的脆弱性也日益凸显。尽管这些对抗性示例可能看起来有害，但它们在揭示深度学习模型的盲点和促进其鲁棒性方面具有重要价值。特别是在多模态领域，如视觉-语言预训练（VLP）模型，它们在多种视觉-语言（V+L）任务上表现出色，但现有的对抗性攻击研究未能充分关注不同模态相关特征的关键作用，导致可转移性攻击性能不佳。

过去方案和缺点

以往的对抗性攻击研究主要关注单一模态的攻击，例如图像或文本，而没有充分利用多模态数据之间的相互作用。例如，Co-Attack方法在白盒设置下优化了整体特征概率分布的差异，但没有考虑模态之间的特征差异。SGA方法虽然在黑盒设置下进行了探索，但仅考虑了文本和图像集合级别的相似性，未能充分利用与模态交互相关的特性。这些方法在直接使用现有的单模态黑盒对抗性攻击方法时可能效果不佳，甚至可能降低性能。

本文方案和步骤

本文提出了一种可转移的多模态（TMM）攻击框架，旨在通过利用模态一致性和模态差异特征来生成具有强攻击能力的可转移对抗性示例。为了提高可转移性，提出了一种注意力引导的特征扰动策略，通过识别文本和图像在交叉注意力指导下的决策相关模态一致性特征，替换相关文本，并在图像的关键区域分配更多的扰动预算。为了提高攻击能力，提出了一种正交引导的特征异质化方法，通过正交化模态融合表示，引导对抗性扰动包含更多的模态差异特征。

本文提出的攻击方案，即Transferable MultiModal (TMM) 攻击框架，旨在生成具有强可转移性的对抗性示例，以攻击多种视觉-语言预训练（VLP）模型。TMM框架的核心思想是同时利用模态一致性（modality-consistency）和模态差异性（modality-discrepancy）特征来提高攻击的转移性和成功率。以下是TMM攻击方案的详细步骤：

注意力引导的特征扰动（Attention-Directed Feature Perturbation, ADFP）：
- 利用VLP模型中常用的交叉注意力（cross-attention）模块，该模块能够捕捉不同模态之间的一致特征。
- 通过计算文本和图像的注意力分数，确定关键的注意力区域，这些区域与模型的决策密切相关。
- 在图像的关键注意力区域应用扰动，同时在文本中替换相关词汇，以生成对抗性示例。
正交引导的特征异质化（Orthogonal-Guided Feature Heterogenization, OGFH）：
- 为了增强攻击能力，提出一种正交化策略，目的是在编码嵌入中引入更多的模态差异性特征。
- 通过正交化不同模态的融合表示，引导对抗性扰动包含更多的模态差异性特征，从而增加模型决策的不确定性。
- 使用余弦相似度（cosine similarity）来衡量特征向量之间的正交性，并通过优化正交损失（orthogonality loss）来实现特征的异质化。
整体训练过程：
- TMM框架首先使用交叉注意力模块引导扰动过程，以干扰模态一致性特征。
- 然后，通过结构损失（structure loss）引导对抗性扰动，以模糊与模态一致性特征相关的图像区域的结构特征，从而增强对抗性示例的可转移性。
- 为了提高对抗性示例的攻击能力，进一步通过正交性损失引导对抗性扰动包含更多的模态差异性特征在编码嵌入中。
实验设置：
- 在实验中，作者使用了不同的VLP模型作为目标模型，包括ALBEF、CLIP、BLIP等，并在Flickr30K和MSCOCO数据集上进行了测试。
- 为了评估攻击效果，使用了攻击成功率（ASR）作为主要指标，反映了对抗性示例成功影响模型决策的比例。

TMM攻击框架通过这些策略，有效地提高了对抗性示例在不同VLP模型之间的可转移性，并在黑盒设置下展示了显著的攻击性能。这种攻击方法不仅对现有的VLP模型构成挑战，也为未来在多模态对抗性攻击领域的研究提供了新的思路。

本文创新点与贡献

提出了首个考虑模态一致性和模态差异特征的可转移对抗性示例研究。
提出了一种有效的框架TMM，用于生成针对VLP模型的强可转移对抗性示例，包括注意力引导的特征扰动和正交引导的特征异质化。
在各种设置下展示了TMM的有效性，实验结果表明TMM在攻击成功率上平均提高了20.47%，同时保持了良好的隐蔽性。
对大型生成视觉-语言模型（LVLMs）进行了进一步探索，初步展示了TMM对强大LVLMs的可转移攻击能力。

本文实验

实验在Flickr30K和MSCOCO数据集上进行，涉及视觉-语言检索（VLR）、视觉理解（VE）和视觉定位（VG）等任务。使用了ALBEF作为代理模型来评估对抗性示例的攻击能力，并在黑盒设置下对六种不同的VLP模型进行了测试。此外，还对LVLMs进行了测试，包括GPT4和BLIP-2等。

实验结论

TMM框架在各种设置下均优于比较基线，特别是在大型模型上，TMM显示出更显著的影响。实验结果表明，TMM在可转移攻击能力上取得了显著提升，并且在保持良好隐蔽性的同时，攻击成功率平均提高了20.47%。

全文结论

本文提出的TMM攻击框架通过利用模态一致性和模态差异特征，成功地提高了对抗性示例的可转移性和攻击能力。这一框架不仅在多种VLP模型上表现出色，而且在大型模型上也显示出强大的攻击性能。这为未来在多模态对抗性攻击领域的研究提供了新的方向。

注1：

模态一致性（modality-consistency）指的是在多模态数据（如图像和文本）中，不同模态之间共享的、对于模型决策过程至关重要的特征。这些特征在不同的数据输入中保持一致，例如图像中的颜色、形状信息和文本中的语义信息。模态一致性特征对于多模态任务，如视觉-语言理解、检索和生成等，是至关重要的，因为它们帮助模型在不同模态之间建立联系，从而进行有效的信息融合和决策。

在对抗性攻击的背景下，模态一致性特征尤为重要，原因如下：

决策关键：模态一致性特征通常与模型的决策过程高度相关。在多模态任务中，模型依赖于这些共享特征来理解和处理输入数据。通过识别和扰动这些特征，攻击者可以有效地误导模型，使其产生错误的输出。
可转移性：在黑盒攻击场景中，攻击者通常无法直接访问目标模型的内部结构和参数。因此，他们需要生成能够在多个模型之间转移的对抗性示例。模态一致性特征由于在不同模型中普遍存在，成为了提高对抗性示例可转移性的关键。
攻击效果：通过针对性地扰动模态一致性特征，攻击者可以设计出更具破坏性的对抗性攻击。这种攻击不仅能够影响单一模型，还能在多个模型之间传播，从而扩大攻击的影响范围。
模型鲁棒性：研究模态一致性特征在对抗性攻击中的作用，有助于揭示模型的脆弱性，从而推动模型设计者开发出更加鲁棒的模型架构和训练策略。

在本文提出的TMM攻击框架中，通过注意力引导的特征扰动策略，攻击者可以识别并扰动那些在模型决策中起关键作用的模态一致性特征，从而提高攻击的成功率和可转移性。这种策略使得对抗性攻击更加有效，同时也为模型的安全性研究提供了新的挑战。

注2：

模态差异性（modality-discrepancy）特征指的是在多模态数据中，特定于某一模态（如图像或文本）的独特特征，这些特征在模型的决策过程中并不被依赖。换句话说，这些特征在不同模态之间存在差异，且对于模型的输出结果没有直接影响。例如，在视觉-语言模型中，文本模态的语法结构特征或图像模态的像素强度特征可能就属于模态差异性特征。

利用模态差异性特征的原因包括：

增强攻击能力：通过在对抗性攻击中引入模态差异性特征，可以增加模型决策过程中的不确定性，从而提高攻击的成功率。这些特征可能不会直接影响模型的决策，但当它们被放大或以特定方式扰动时，可能会干扰模型对一致性特征的处理，导致错误的预测。
提高攻击的隐蔽性：模态差异性特征通常不直接影响模型的输出，因此在对抗性攻击中使用这些特征可以减少被检测到的可能性。这使得对抗性示例在外观上更接近原始数据，从而更难以被防御机制识别。
探索模型的盲点：研究模态差异性特征可以帮助我们更好地理解模型在处理多模态数据时的局限性。通过分析这些特征如何影响模型的鲁棒性，研究人员可以设计出更有效的对抗性攻击策略，同时也为改进模型架构和训练方法提供了方向。
促进模型的泛化能力：虽然模态差异性特征在短期内可能被用来增强攻击，但从长远来看，理解和利用这些特征可以帮助模型学习到更鲁棒的特征表示，从而提高其在面对多样化输入时的泛化能力。

在本文提出的TMM攻击框架中，正交引导的特征异质化策略正是利用模态差异性特征来增强攻击能力。通过在编码嵌入中引入更多的模态差异性特征，TMM攻击框架能够更有效地干扰VLP模型的决策过程，提高攻击的隐蔽性和成功率。

注3：

利用模态差异性特征能增强攻击能力，主要是因为这些特征代表了不同模态中独特的、模型在决策时不依赖的信息。在多模态学习任务中，模型通常会寻找并利用不同模态之间的一致性特征来提高性能。然而，模态差异性特征提供了一种额外的信息维度，这些信息在模型的正常操作中可能被忽略或未被充分利用。在对抗性攻击的背景下，这些特征可以被用来执行以下操作，从而增强攻击能力：

混淆模型决策：通过在对抗性示例中引入模态差异性特征，攻击者可以在模型的决策过程中引入额外的噪声或误导信息。这可能导致模型难以正确地识别和处理输入数据，从而产生错误的预测。
增加攻击的隐蔽性：由于模态差异性特征通常不直接影响模型的输出，它们在对抗性攻击中的应用可以使得对抗性示例在外观上更接近原始数据，这使得对抗性攻击更难以被检测和防御。
提高攻击的泛化能力：在多模态系统中，模型可能在特定模态上表现出较强的鲁棒性。通过利用模态差异性特征，攻击者可以在这些鲁棒模态上找到新的攻击路径，从而提高攻击的泛化能力，使得对抗性示例能够在多个模型或不同设置下有效。
探索模型的脆弱性：通过研究模态差异性特征在对抗性攻击中的作用，可以揭示模型在处理多模态数据时的潜在脆弱性。这有助于理解模型的局限性，并为改进模型的鲁棒性和安全性提供指导。
增强攻击的不可预测性：模态差异性特征的引入为攻击者提供了更多的自由度来设计攻击策略。这种多样性使得模型更难以学习到对抗性攻击的通用模式，从而提高了攻击的不可预测性。

在TMM攻击框架中，通过正交引导的特征异质化策略，攻击者可以有目的地在模型的编码嵌入中引入模态差异性特征，这不仅提高了攻击的成功率，也增加了攻击的隐蔽性和可转移性。这种策略使得对抗性攻击更加有效，同时也为模型的安全性研究提供了新的挑战。

阅读总结报告

本研究针对视觉-语言预训练（VLP）模型的对抗性攻击问题，提出了一种新的可转移多模态（TMM）攻击框架。该框架通过精心设计的注意力引导特征扰动和正交引导特征异质化策略，显著提高了对抗性示例的可转移性和攻击成功率。实验结果表明，TMM在多种VLP模型和大型生成视觉-语言模型（LVLMs）上均优于现有方法，显示出其在多模态对抗性攻击领域的潜力。这项工作不仅为VLP模型的安全性研究提供了新的视角，也为未来在这一领域的研究提供了新的方向。

PreviousVL-Trojan: Multimodal Instruction Backdoor Attacks against Autoregressive Visual Language Models NextBadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning

Last updated 1 year ago