JAILBREAK IN PIECES: COMPOSITIONAL ADVERSARIAL ATTACKS ON MULTI-MODAL LANGUAGE MODELS

  1. 研究背景: 随着大型语言模型(LLMs)的发展,它们在多模态任务中的应用越来越广泛,尤其是在视觉和语言结合的模型(VLMs)中。这些模型通过整合视觉和文本信息,提高了对复杂任务的处理能力。然而,这些多模态模型可能存在安全漏洞,尤其是当它们面对对抗性攻击时。对抗性攻击通过输入扰动来操纵模型输出,可能导致模型产生有害内容。尽管已有研究关注文本输入的对抗性攻击,但多模态模型的跨模态攻击仍然是一个相对较新的研究领域。

  2. 过去方案和缺点: 以往的研究主要集中在文本输入的对抗性攻击,这些攻击通常需要模型的完整访问权限(白盒访问),以便计算梯度并反向传播到输入。这种方法在多模态模型中可能不适用,因为它们需要处理视觉和文本两种模态的输入。此外,文本输入的对抗性攻击容易被人类或自动化过滤器检测到,从而降低了其持久性威胁的有效性。

  1. 本文方案和步骤: 本文提出了一种新的跨模态攻击方法,称为“Jailbreak in Pieces”,它针对视觉语言模型(VLMs)。该方法通过结合对抗性图像和文本提示来破坏语言模型的对齐。具体步骤包括:

    • 设计四种不同的场景来分解有害提示,每种场景将良性文本指令与对抗性图像配对。

    • 使用端到端的基于梯度的攻击方法来更新图像,使其与联合嵌入空间中的恶意触发器的嵌入匹配。

    • 通过不需要访问语言模型的嵌入空间基础方法,生成看似良性的对抗性图像。

  2. 本文实验和性能: 实验结果表明,本文提出的攻击方法在不同的VLMs上取得了高成功率,特别是当文本指令与视觉模态中的恶意触发器配对时。这表明跨模态对齐在多模态模型中存在脆弱性。实验还展示了攻击的泛化性和组合性,即相同的恶意图像触发器可以激活多种看似良性的通用文本指令,反之亦然。

阅读总结报告: 本文提出了一种针对多模态语言模型的新型跨模态攻击方法,该方法通过结合对抗性图像和文本提示来破坏模型的对齐。这种攻击不需要访问语言模型,降低了攻击者的技术门槛,尤其是在视觉编码器(如CLIP)集成到封闭源LLMs的情况下。实验结果显示,该攻击方法在不同的VLMs上取得了高成功率,揭示了多模态对齐的脆弱性,并强调了开发新的对齐方法以应对多模态输入的必要性。此外,攻击的泛化性和组合性为对抗性攻击的利用提供了新的视角。

注1:

在这篇论文中,攻击者提供的是经过特殊设计的非正常图片(对抗性图像),这些图像被用来与文本提示结合,以破坏视觉语言模型(VLMs)的对齐。这些对抗性图像是通过一种新颖的嵌入空间基础方法生成的,目的是在不直接访问语言模型的情况下,通过视觉编码器(如CLIP)来操纵模型的输出。

具体来说,攻击者首先确定一个目标触发器(例如,与有害内容相关的图像或文本),然后生成一个对抗性图像,该图像在视觉编码器的嵌入空间中与目标触发器的嵌入向量非常接近。这样,当这个对抗性图像与一个看似无害的文本提示一起输入到VLM时,模型可能会产生违反其安全对齐的输出。

这种方法的关键在于,对抗性图像在视觉上可能看起来是正常的,但它们在模型的嵌入空间中与恶意内容的表示紧密相关。这使得攻击者能够在不引起人类或自动化过滤器注意的情况下,潜在地操纵模型的行为。

注2:

Last updated