Adversarial Illusions in Multi-Modal Embeddings

1. 研究背景

本文研究的背景是多模态嵌入技术，该技术将文本、图像、声音、视频等不同模态的数据编码到单一的嵌入空间中，以实现跨模态的表示对齐（例如，将狗的图像与狗叫声关联起来）。多模态编码器如ImageBind和AudioCLIP等，通过在大量双模态数据上进行对比学习，不仅实现了自然对齐的模态之间的对齐，还展现出了在训练数据中未明确链接的模态之间的新兴对齐。然而，本文指出这种多模态嵌入容易受到一种称为“对抗性幻觉”的攻击，即攻击者可以对图像或声音进行微调，使其嵌入与另一个模态中的任意、攻击者选择的输入在嵌入空间中接近，从而误导基于嵌入的下游任务。

2. 过去方案和缺点

过去的多模态学习攻击主要针对单一模态，并且不需要处理模态间的差异。然而，本文提出的对抗性幻觉攻击不仅跨模态，而且是目标导向的，攻击者可以自由地将任何图像与任何声音对齐，无论这些模态是否在训练数据中明确链接。此外，现有的攻击方法如基于对比学习的攻击，通过增加对比损失来工作，但攻击者无法控制扰动输入的放置或对齐。而本文提出的攻击方法，可以显著地比任何自然对齐更接近，无论源和目标模态如何。

3. 本文方案和步骤

本文提出的方案是利用对抗性扰动来误导不同模态的输入在嵌入空间中的对齐。具体步骤如下：

使用标准的对抗性扰动技术来攻击嵌入。
攻击是目标导向的，攻击者可以选择对齐的输入。
展示了攻击是任务不可知的，即攻击者在生成幻觉时不需要知道具体的下游任务。
分析了攻击在不同编码器之间的可迁移性，并开发了一种黑盒版本的攻击方法，用于对亚马逊的商业专有Titan嵌入进行攻击。

4. 本文创新点与贡献

本文的主要创新点和贡献包括：

首次展示了微小的、几乎不可感知的对抗性扰动可以用来在嵌入空间中错误地对齐不同模态的输入，从而误导下游应用。
证明了攻击是任务不可知的，并且可以对未知或不可用的下游任务和模态进行全面的妥协。
分析了攻击在不同编码器之间的可迁移性，并展示了如何使用OpenCLIP编码器生成的幻觉同时在ImageBind和AudioCLIP嵌入上实现高攻击成功率。
展示了对亚马逊Titan嵌入的首次对抗性对齐攻击，即使嵌入完全不透明。
调查了对策措施，并展示了对抗性幻觉如何规避基于特征蒸馏（例如JPEG压缩）和基于增强一致性的异常检测的防御。

5. 本文实验

本文的实验评估了在四种威胁模型下，对两个标准多模态数据集、四个嵌入家族和四个下游任务（第五个任务用于说明）的对抗性幻觉。实验结果表明，即使对于随机配对的多模态元组，攻击也能产生具有高攻击成功率的对抗性幻觉。

6. 实验结论

实验结果表明，本文提出的攻击方法能够在不同的多模态嵌入中成功地产生对抗性幻觉，并且这些幻觉能够以高成功率误导下游任务，包括图像生成、文本生成、零样本图像和音频分类以及音频检索。

7. 全文结论

本文得出的结论是，多模态嵌入对于对抗性输入非常脆弱，容易受到跨模态幻觉的影响。这种攻击不仅跨模态，而且与任务无关，能够误导攻击者在生成对抗性输入时并不知道的下游任务。此外，本文还讨论了潜在的对策和逃避攻击，为未来的防御研究提供了方向。

阅读总结

本文深入研究了多模态嵌入技术中的对抗性幻觉问题，并提出了一种新的攻击方法，该方法能够在不同的模态之间创建误导性的嵌入对齐，从而影响下游任务的结果。通过一系列实验，作者证明了攻击的有效性，并探讨了可能的防御措施。这项工作不仅揭示了多模态嵌入技术的潜在风险，也为未来的研究提供了重要的方向和见解。

PreviousRed Teaming Visual Language Models NextUniversal Prompt Optimizer for Safe Text-to-Image Generation

Last updated 1 year ago