Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Ima

研究背景

随着多模态大型语言模型（MLLMs）的出现和广泛部署，确保它们的安全性变得越来越重要。MLLMs在处理视觉和语言任务方面表现出色，但同时也可能被恶意利用来生成有害内容，如暴力、歧视、虚假信息或不道德内容。因此，研究者们提出了“越狱攻击”（jailbreak attacks），目的是通过精心设计的输入误导MLLMs响应恶意请求。

过去方案和缺点

现有的越狱攻击方法主要分为三类：基于扰动的攻击、基于文本的攻击和基于结构的攻击。基于扰动的攻击通过对抗性扰动破坏MLLMs的对齐，而基于文本的攻击则利用针对大型语言模型（LLMs）的越狱技术生成文本提示来破坏MLLMs。然而，这些方法存在局限性，如缺乏足够的越狱效果和泛化能力。特别是基于结构的越狱攻击，它们通常需要针对每个查询进行计算，处理大数据集时不切实际。

本文方案和步骤

为了克服现有方法的局限性，本文提出了一种新颖有效的方法，称为视觉角色扮演（Visual Role-play, VRP）。VRP利用大型语言模型生成高风险角色的详细描述，并基于这些描述创建相应的图像。具体步骤包括：

生成角色描述：使用LLM生成高风险角色的关键特征描述。
生成角色图像：利用文本到图像模型根据描述生成角色图像。
生成问题文本：将恶意查询直接嵌入图像中。
图像拼接：将角色描述文本、角色图像和恶意查询文本从上到下拼接形成完整的输入图像。
攻击MLLMs：将完整的恶意图像与良性角色扮演指令文本配对，查询并攻击MLLMs。

本文创新点与贡献

提出了首个利用“角色扮演”概念来增强MLLMs越狱攻击性能的方法。
VRP通过生成详细的角色描述和图像，有效地误导MLLMs生成恶意响应。
VRP展示了强大的泛化能力，能够处理广泛的恶意查询，不仅限于特定用户请求。
在流行的基准测试中，VRP实现了优越的越狱性能和强泛化能力。

本文实验

实验使用了两个广泛使用的越狱攻击数据集RedTeam-2K和HarmBench来评估VRP。通过与现有的最强基线Query relevant和FigStep进行比较，VRP在所有模型上平均提高了14.3%的攻击成功率（ASR）。

实验结论

VRP方法在越狱攻击MLLMs方面表现出色，不仅成功地破坏了这些模型，而且与所有评估的基线攻击相比，具有更高的ASR。此外，VRP在更具有挑战性的通用攻击设置中仍然表现出最佳性能，证明了其泛化能力。

全文结论

本文提出的VRP方法有效地克服了现有越狱攻击方法在效果和泛化能力上的局限性。通过联合框架生成角色肖像并指导MLLMs进行角色扮演，VRP破坏了模型的对齐鲁棒性。广泛的实验表明，与现有方法相比，VRP在各种模型上展现出卓越的攻击效果，甚至能够抵御先进的防御措施。

PreviousAdversarial Attacks on Multimodal Agents NextCross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models

Last updated 1 year ago