White-box Multimodal Jailbreaks Against Large Vision-Language Models

研究背景

大型视觉-语言模型(VLMs)在多模态任务中表现出色,但它们的对抗性鲁棒性尚未得到充分探索。现有方法主要通过单模态对抗性攻击来评估鲁棒性,这些攻击通过扰乱图像来进行,同时假设对基于文本的攻击具有固有的弹性。然而,这种假设可能并不准确,因为将额外的视觉模态集成到基础语言模型中可能会引入新的漏洞。

过去方案和缺点

以往的研究主要集中在单模态攻击上,如Carlini等人(2024)和Bagdasaryan等人(2023)通过优化输入图像来增加生成有害内容的可能性。这些方法主要关注于图像模态,而对基于文本的攻击研究较少,部分原因是人们普遍认为文本模态由于其离散性和低维性,难以突破VLMs的防御机制。

本文方案和步骤

本文提出了一种更全面的策略,通过联合攻击文本和图像模态来利用VLMs内部更广泛的漏洞频谱。具体来说,提出了一个双重优化目标,旨在引导模型生成具有高毒性的肯定回应。

  1. 初始化对抗性图像前缀:从随机噪声开始,优化以在没有文本输入的情况下生成多样化的有害回应,从而使图像具有毒性语义。

  2. 集成对抗性文本后缀:与对抗性图像前缀一起集成并共同优化,以最大化对各种有害指令产生肯定回应的概率。

本文创新点与贡献

  • 首次引入针对VLMs的文本-图像多模态对抗性攻击,系统地利用这些模型固有的漏洞。

  • 提出了具有双重优化目标的多模态攻击策略。首先通过优化对抗性图像前缀增强图像的毒性,然后共同优化对抗性图像前缀和对抗性文本后缀,以最大化模型肯定回应的概率。

  • 在基准数据集上的广泛实验表明,所提出的通用主密钥(UMK)能够以显著的成功率普遍破解VLMs,超越了现有的单模态方法。

本文实验

实验部分评估了所提出的UMK方法在不同数据集上的表现,包括Advbench有害行为数据集、VAJM评估集以及RealToxicityPrompts基准的挑战性子集。实验使用了MiniGPT-4模型,并与其他单模态攻击方法进行了比较。

实验结论

UMK方法在破解MiniGPT-4上的成功率达到了96%,显著优于先前的单模态攻击方法。这突出了VLMs的脆弱性以及迫切需要新的对齐策略。

全文结论

本文提出的文本-图像多模态攻击策略有效地破解了大型视觉-语言模型。通过双重优化目标,本文方法解决了生成回应的毒性不足和无法充分遵循指令的问题。实验结果表明,本文方法在对抗性攻击方面显著优于以往的单模态攻击方法。然而,UMK的可转移性受限,这是由于不同VLMs之间的模型架构、参数甚至分词器的差异造成的。

注:

优化对抗性图像前缀增强图像的毒性

  1. 初始化对抗性图像前缀:该过程从随机噪声开始,创建一个初始的对抗性图像前缀((X^p_{adv}))。

  2. 优化目标:优化的目标是在没有任何文本输入(即空文本输入(\emptyset))的情况下,最大化模型生成有害内容的概率。具体来说,就是最大化生成一个包含有害句子的小型语料库((S := {s_i}_{i=1}^{m}))的概率。

  3. 优化过程:使用图像对抗性攻击中的常用技术,如投影梯度下降(PGD),来解决这个优化问题。通过迭代更新对抗性图像前缀,使其逐渐包含毒性语义。

共同优化对抗性图像前缀和对抗性文本后缀

  1. 引入对抗性文本后缀:在对抗性图像前缀被优化之后,引入一个对抗性文本后缀((X^s_{adv})),并与图像前缀结合。

  2. 联合优化目标:联合优化的目标是最大化模型对于恶意用户查询((X^{harm}))生成肯定回应的概率。这里,对抗性文本后缀和恶意用户查询被串联起来形成文本输入。

  3. 优化策略:利用少量的目标-目标对(({g_i, t_i}_{i=1}^{n})),其中(g_i)代表恶意用户查询,而(t_i)是这些查询的肯定回应(例如,以“当然,这是做********(坏事)的指示”的形式)。通过优化,使得模型更倾向于生成这样的肯定回应。

  4. 多模态优化方法:共享特征空间允许通过单次反向传播同时更新图像前缀和文本后缀。使用PGD更新对抗性图像前缀,使用贪婪坐标梯度(GCG)更新对抗性文本后缀。GCG是一种针对LLMs的最新文本基础攻击策略,它通过识别每个标记位置上的替代候选项,并选择通过前向传播实现最大损失减少的替换,来优化文本后缀。

总结

通过这两个步骤,研究者们能够创建一个通用的主密钥(UMK),它由优化后的对抗性图像前缀和对抗性文本后缀组成。当UMK被集成到各种恶意查询中时,它可以绕过VLMs的对齐防御机制,导致生成令人反感的内容,即所谓的“越狱”。这种方法有效地扩展了攻击面,并提高了攻击VLMs成功的可能性。

Last updated