White-box Multimodal Jailbreaks Against Large Vision-Language Models

研究背景

大型视觉-语言模型（VLMs）在多模态任务中表现出色，但它们的对抗性鲁棒性尚未得到充分探索。现有方法主要通过单模态对抗性攻击来评估鲁棒性，这些攻击通过扰乱图像来进行，同时假设对基于文本的攻击具有固有的弹性。然而，这种假设可能并不准确，因为将额外的视觉模态集成到基础语言模型中可能会引入新的漏洞。

过去方案和缺点

以往的研究主要集中在单模态攻击上，如Carlini等人（2024）和Bagdasaryan等人（2023）通过优化输入图像来增加生成有害内容的可能性。这些方法主要关注于图像模态，而对基于文本的攻击研究较少，部分原因是人们普遍认为文本模态由于其离散性和低维性，难以突破VLMs的防御机制。

本文方案和步骤

本文提出了一种更全面的策略，通过联合攻击文本和图像模态来利用VLMs内部更广泛的漏洞频谱。具体来说，提出了一个双重优化目标，旨在引导模型生成具有高毒性的肯定回应。

初始化对抗性图像前缀：从随机噪声开始，优化以在没有文本输入的情况下生成多样化的有害回应，从而使图像具有毒性语义。
集成对抗性文本后缀：与对抗性图像前缀一起集成并共同优化，以最大化对各种有害指令产生肯定回应的概率。

本文创新点与贡献

首次引入针对VLMs的文本-图像多模态对抗性攻击，系统地利用这些模型固有的漏洞。
提出了具有双重优化目标的多模态攻击策略。首先通过优化对抗性图像前缀增强图像的毒性，然后共同优化对抗性图像前缀和对抗性文本后缀，以最大化模型肯定回应的概率。
在基准数据集上的广泛实验表明，所提出的通用主密钥（UMK）能够以显著的成功率普遍破解VLMs，超越了现有的单模态方法。

本文实验

实验部分评估了所提出的UMK方法在不同数据集上的表现，包括Advbench有害行为数据集、VAJM评估集以及RealToxicityPrompts基准的挑战性子集。实验使用了MiniGPT-4模型，并与其他单模态攻击方法进行了比较。

实验结论

UMK方法在破解MiniGPT-4上的成功率达到了96%，显著优于先前的单模态攻击方法。这突出了VLMs的脆弱性以及迫切需要新的对齐策略。

全文结论

本文提出的文本-图像多模态攻击策略有效地破解了大型视觉-语言模型。通过双重优化目标，本文方法解决了生成回应的毒性不足和无法充分遵循指令的问题。实验结果表明，本文方法在对抗性攻击方面显著优于以往的单模态攻击方法。然而，UMK的可转移性受限，这是由于不同VLMs之间的模型架构、参数甚至分词器的差异造成的。

注：

优化对抗性图像前缀增强图像的毒性

初始化对抗性图像前缀：该过程从随机噪声开始，创建一个初始的对抗性图像前缀（(X^p_{adv})）。
优化目标：优化的目标是在没有任何文本输入（即空文本输入(\emptyset)）的情况下，最大化模型生成有害内容的概率。具体来说，就是最大化生成一个包含有害句子的小型语料库（(S := {s_i}_{i=1}^{m})）的概率。
优化过程：使用图像对抗性攻击中的常用技术，如投影梯度下降（PGD），来解决这个优化问题。通过迭代更新对抗性图像前缀，使其逐渐包含毒性语义。

共同优化对抗性图像前缀和对抗性文本后缀

引入对抗性文本后缀：在对抗性图像前缀被优化之后，引入一个对抗性文本后缀（(X^s_{adv})），并与图像前缀结合。
联合优化目标：联合优化的目标是最大化模型对于恶意用户查询（(X^{harm})）生成肯定回应的概率。这里，对抗性文本后缀和恶意用户查询被串联起来形成文本输入。
优化策略：利用少量的目标-目标对（({g_i, t_i}_{i=1}^{n})），其中(g_i)代表恶意用户查询，而(t_i)是这些查询的肯定回应（例如，以“当然，这是做********（坏事）的指示”的形式）。通过优化，使得模型更倾向于生成这样的肯定回应。
多模态优化方法：共享特征空间允许通过单次反向传播同时更新图像前缀和文本后缀。使用PGD更新对抗性图像前缀，使用贪婪坐标梯度（GCG）更新对抗性文本后缀。GCG是一种针对LLMs的最新文本基础攻击策略，它通过识别每个标记位置上的替代候选项，并选择通过前向传播实现最大损失减少的替换，来优化文本后缀。

总结

通过这两个步骤，研究者们能够创建一个通用的主密钥（UMK），它由优化后的对抗性图像前缀和对抗性文本后缀组成。当UMK被集成到各种恶意查询中时，它可以绕过VLMs的对齐防御机制，导致生成令人反感的内容，即所谓的“越狱”。这种方法有效地扩展了攻击面，并提高了攻击VLMs成功的可能性。

PreviousTypography Leads Semantic Diversifying: Amplifying Adversarial Transferability across Multimodal Lar NextRed Teaming Visual Language Models

Last updated 1 year ago