Typography Leads Semantic Diversifying: Amplifying Adversarial Transferability across Multimodal Lar

1. 研究背景

随着人工智能(AI)时代的到来，多模态大型语言模型(MLLMs)因其能够理解视觉和文本之间的交叉模态交互而受到广泛关注。这些模型能够生成对抗性示例，这些示例对人类来说难以察觉，但可以成功地影响传统视觉模型(TradVMs)。对抗性转移性是一个关键特性，意味着在一个模型上生成的扰动也可以误导另一个不同的模型。增强输入数据的多样性是提高对抗性转移性的重要方法之一。

2. 过去方案和缺点

以往的研究工作表明，MLLMs可以在白盒场景下被利用来生成对抗性示例。然而，这些扰动的对抗性转移性非常有限，未能实现跨不同模型的有效黑盒攻击。此外，现有的数据增强方法主要在像素级别上多样化图像，而MLLMs更专注于在语义级别上提取和理解视觉信息。

3. 本文方案和步骤

本文提出了一种基于排版的语义传输攻击(TSTA)，该方法受到以下两个观点的启发：(1) MLLMs倾向于处理语义级别的信息；(2) 排版攻击可以有效地分散MLLMs捕获的视觉信息。TSTA通过在对抗性示例生成过程中引入排版文本来增强输入图像的语义级别信息。具体步骤包括：

使用不同的排版文本在对抗性优化过程的每一步中打印到输入图像中。
通过集成学习、多提示训练和集成训练的扩展来增强TSTA的适用性。

4. 本文创新点与贡献

提出在MLLMs中，多样化语义级别的信息更有效地增强生成的对抗性示例的转移性。
提出了基于排版的语义传输攻击(TSTA)，这是促进MLLMs黑盒攻击的开创性方法。
通过大量综合实验，TSTA在不同应用场景中取得了优越的结果。

5. 本文实验

实验设置包括使用InstructBLIP和LLaVA-v1.5作为代理模型生成对抗性示例，并在不同版本的BLIP2、InstructBLIP、MiniGPT-4、LLaVA-v1.5和LLaVA-v1.6上测试这些对抗性示例的转移性。使用MS-COCO数据集中的300张图片作为生成对抗性示例的数据集。实验中使用PGD算法生成对抗性扰动，并采用攻击成功率(ASR)和CLIPScore作为评估指标。

6. 实验结论

实验结果表明，TSTA方法在固定视觉编码器(FixVE)和跨视觉编码器集成(CroVEEns)的黑盒攻击场景中显示出强大的对抗性转移性，与其他数据增强方法相比，TSTA生成的对抗性示例在不同受害者模型上具有更高的ASR和更低的CLIPScore。

7. 全文结论

本文介绍的TSTA方法利用MLLMs对语义级别信息的亲和力和引入排版时的易分散性，展示了在各种应用场景中的优越性能。这种方法凸显了在黑盒条件下增加安全威胁的潜力，并强调了在使用MLLMs时需要提高警惕，以防止信息泄露和滥用。

阅读总结

本文提出了一种新的对抗性攻击方法TSTA，针对多模态大型语言模型(MLLMs)。TSTA通过在输入图像中引入排版文本，增强了对抗性示例的语义多样性，从而提高了对抗性转移性。实验结果表明，TSTA在不同场景下均能显著提高攻击的成功率，对现有MLLMs的安全性提出了警示，并为未来的防御策略提供了研究方向。

PreviousCross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models NextWhite-box Multimodal Jailbreaks Against Large Vision-Language Models

Last updated 1 year ago