Transferable Multimodal Attack on Vision-Language Pre-training Models

研究背景

随着深度神经网络（DNNs）在多种机器学习任务中的成功应用，它们在面对不可感知的对抗性示例时表现出的脆弱性引起了广泛关注。尽管这些对抗性示例可能看起来有害，但它们对于深入理解和审视深度学习模型的基本机制具有重要价值。特别是在多模态领域，Vision-Language Pre-training (VLP) 模型因其在多种视觉-语言（V+L）任务中的出色表现而受到重视。然而，现有的关于VLP模型对抗性鲁棒性的研究存在不足，尤其是在考虑不同模态相关特征的关键作用方面，导致可转移性攻击性能不尽人意。

过去方案和缺点

以往的研究主要关注单一模态的对抗性攻击，而没有充分利用多模态之间的相互作用。例如，Co-Attack 方法在白盒设置下优化了整体特征概率分布的融合差异，但没有考虑模态之间的特征差异。SGA 方法基于Co-Attack，仅考虑了文本和图像集合级别的相似性，未能充分利用与模态交互相关的特征。这些方法在面对VLP模型时，由于未能有效处理多模态特征，导致攻击性能有限。

本文方案和步骤

本文提出了一种可转移的多模态（TMM）攻击框架，旨在通过利用模态一致性和模态差异特征来生成具有强大攻击能力的可转移对抗性示例。为了提高可转移性，文章提出了一种注意力引导的特征扰动策略，通过识别和扰动关键的注意力区域来扰乱模态一致性特征。此外，为了增强攻击能力，文章提出了一种正交引导的特征异构化方法，通过正交化操作引导对抗性扰动包含更多的模态差异特征。TMM框架的主要步骤包括：

使用交叉注意力模块引导扰动过程，以扰乱模态一致性特征。
应用结构损失来引导图像中与模态一致性特征相关的结构特征的扰动。
通过正交性损失引导对抗性扰动包含更多的模态差异特征。

本文创新点与贡献

首次考虑了在VLP模型的可转移对抗性示例中模态一致性和模态差异特征的作用。
提出了一个有效的框架，用于生成针对VLP模型的强可转移对抗性示例，该框架结合了注意力引导的特征扰动和正交引导的特征异构化。
在多种设置下验证了TMM的有效性，实验结果表明TMM在攻击成功率上平均比基线提高了20.47%，同时保持了良好的隐蔽性。
对大型生成性视觉-语言模型（LVLMs）进行了黑盒设置下的进一步探索，初步证明了TMM对强大LVLMs的可转移攻击能力。

本文实验

实验在多个VLP模型上进行，包括ALBEF、CLIP、BLIP、METER、TCL、X-VLM和ViLT，以及在Flickr30K和MSCOCO数据集上评估了TMM的攻击性能。实验结果显示，TMM在各种设置下均优于比较方法，特别是在黑盒设置下，TMM的攻击成功率显著提高。

实验结论

实验结果证明了TMM框架在提高对抗性示例的可转移性和攻击能力方面的有效性。TMM通过结合模态一致性和模态差异特征，成功地在多种VLP模型上实现了更高的攻击成功率，并且在大型模型上也显示出了显著的攻击性能。

全文结论

本文提出的TMM攻击框架为VLP模型的对抗性攻击提供了一种新的视角和方法。通过充分利用多模态特征，TMM不仅提高了攻击的可转移性，还增强了攻击能力。此外，TMM对大型模型的攻击效果也表明了其在实际应用中的潜在威胁。未来的研究可以进一步探索如何提高VLP模型的对抗性鲁棒性，以应对类似TMM这样的攻击方法。

注：

在可转移对抗性示例的研究中，模态一致性（Modality-consistency）和模态差异（Modality-discrepancy）特征起着至关重要的作用。这两个概念是针对多模态预训练模型（VLP）的特性提出的，它们在提高对抗性攻击的可转移性和攻击能力方面发挥着关键作用。

模态一致性特征（Modality-consistency features）

模态一致性特征指的是在不同模态（如视觉和语言）之间共享的、对模型决策有重要影响的特征。这些特征在多模态数据输入中是一致存在的，并且在不同VLP模型间具有高度相关性。例如，文本和图像输入可能共享颜色、形状等属性信息。在VLP模型中，这些共享特征对于模型做出正确决策至关重要。

在可转移对抗性攻击中，模态一致性特征的作用在于：

提高攻击的可转移性：通过识别并扰动这些共享特征，攻击者生成的对抗性示例能够在不同的VLP模型之间有效转移，因为这些模型都依赖于这些一致的特征来做出决策。
增强攻击的隐蔽性：由于模态一致性特征在正常数据中普遍存在，对这些特征的微小扰动不易被检测到，从而使得对抗性示例在视觉上仍然保持自然和合理。

模态差异特征（Modality-discrepancy features）

模态差异特征指的是特定于某一模态的独特特性，这些特性在VLP模型的决策过程中并不依赖。例如，在文本输入中，独特的属性可能是语法结构，而在视觉输入中，可能是像素强度。这些特征虽然对模型的决策过程影响不大，但通过增强这些独特的模态特定属性，可以潜在地干扰VLP模型的决策过程。

在可转移对抗性攻击中，模态差异特征的作用在于：

增强攻击能力：通过引入与模态一致性特征正交的特征扰动，可以增加模型在特征表示中的不一致性，从而混淆模型的学习表示，提高攻击的成功率。
提升攻击的隐蔽性：由于模态差异特征通常不直接影响模型的决策，它们的放大或改变不会立即引起模型的警觉，这为攻击者提供了一种隐蔽的攻击手段。

结合模态一致性和模态差异特征的攻击策略

本文提出的TMM攻击框架通过结合这两种特征来提高对抗性攻击的效果。具体来说：

注意力引导的特征扰动（ADFP）：利用模型内部的注意力机制来识别和扰动模态一致性特征，从而提高攻击的可转移性。
正交引导的特征异构化（OGFH）：通过正交化操作来引导对抗性扰动包含更多的模态差异特征，从而增强攻击的隐蔽性和能力。

通过这种结合模态一致性和模态差异特征的方法，TMM攻击框架能够有效地生成在多种VLP模型上具有强攻击能力和高可转移性的对抗性示例。这种方法不仅提高了攻击的性能，也为未来研究如何提高VLP模型对抗性鲁棒性提供了新的视角。

阅读总结报告

本篇论文提出了一种针对视觉-语言预训练模型（VLP）的可转移多模态攻击框架（TMM），旨在生成具有强大攻击能力和高可转移性的对抗性示例。研究背景强调了VLP模型在面对对抗性攻击时的脆弱性，以及现有研究在处理多模态特征方面的不足。本文提出的TMM框架通过注意力引导的特征扰动和正交引导的特征异构化两种策略，有效地提高了攻击的可转移性和攻击能力。实验结果表明，TMM在多种VLP模型上均取得了优于现有方法的攻击成功率，并且在大型模型上也显示出了显著的攻击效果。本文的创新点在于首次系统地研究了模态一致性和模态差异特征在多模态对抗性攻击中的作用，为未来在该领域的研究提供了新的方向。

PreviousHijacking Context in Large Multi-modal Models NextImages are Achilles’ Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimoda

Last updated 1 year ago