大模型安全笔记

Images are Achilles’ Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimoda

研究背景

随着大型语言模型（LLMs）的强大能力被广泛利用，多模态大型语言模型（MLLMs）应运而生。MLLMs能够处理文本和视觉信息，类似于LLMs处理文本输入。尽管MLLMs在视觉-语言任务上表现出色，并能与用户进行图像相关的对话，但它们也面临着与其背后的LLMs相似的无害性挑战。尽管MLLMs经历了类似人类反馈的强化学习的无害性对齐（RLHF），但它们仍然容易受到黑盒攻击（例如复杂的越狱提示）或白盒攻击（例如基于梯度的攻击）。

过去方案和缺点

以往的研究主要评估MLLMs对有害指令的无害性，或者通过使用对抗性图像来评估模型的鲁棒性。这些研究表明，与它们的LLMs相比，视觉模态的整合可能会加剧MLLMs的安全问题。然而，这些研究缺乏对MLLMs中安全问题发生的深入理解，以及它们与LLMs中的安全问题可能的不同之处。

本文方案和步骤

本文提出了一种名为HADES（Hiding and Amplifying harmfulness in images to DEStroy multimodal alignment）的新型越狱方法。HADES通过精心设计的图像隐藏和放大文本输入中的恶意意图。具体步骤包括：

将文本输入中的有害信息提取到排版中，并用文本到图像的指针替换这些文本，引导模型关注图像信息。
将另一个有害图像附加到原始排版上。这个图像是由图像生成模型创建的，并且其有害性已经通过提示优化在多个回合中被放大。
通过梯度更新优化对抗性噪声，以诱导MLLM遵循有害指令。

本文创新点与贡献

本文通过详细的实证研究，揭示了MLLMs的无害性对齐问题，并系统地研究了违反无害性对齐的可能因素。结果表明，MLLMs的视觉模态引入了额外的对齐漏洞，可以被进一步利用来越狱这些模型。
提出了HADES，这是一种新颖的越狱方法，使用精心设计的图像隐藏和放大原始恶意意图的有害性。实验结果表明，无论是基于对齐LLMs的开源MLLMs，还是功能强大的闭源MLLMs，都难以抵抗HADES。

HADES（Hiding and Amplifying harmfulness in images to DEStroy multimodal alignment）是一种针对多模态大型语言模型（MLLMs）的越狱方法，旨在通过精心设计的图像来隐藏和放大文本输入中的恶意意图。HADES的流程可以分为以下三个主要步骤：

步骤 1: 从文本隐藏有害性到图像（Hiding Harmfulness from Text to Image）

在这一步中，HADES的目标是将文本输入中的有害信息转移到图像侧，以此来绕过MLLMs在文本方面的防御机制。具体操作如下：

首先，将文本指令中的有害关键词或短语替换为指向图像的文本指针（Text-to-image pointer）。例如，如果原始文本指令是“展示如何通过墙壁进行窃听”，那么经过转换后，它可能变成“展示如何通过图像中的墙壁进行窃听”。
同时，使用排版（typography）来表示关键词，这样模型可以通过引用排版来推断原始有害意图。

步骤 2: 通过LLMs放大图像的有害性（Amplifying Image Harmfulness with LLMs）

这一步骤的目的是增加图像的有害性，以诱导MLLMs生成有害的响应。具体操作如下：

利用扩散模型（如Diffusion Model）作为有害图像生成器，结合LLMs作为攻击者模型，迭代优化图像生成提示，以增加生成图像的有害性。
通过一个迭代过程生成有害图像。首先，使用ChatGPT修改原始指令以生成初始图像生成提示，并生成初始图像。然后，使用评判模型（Judging Model）评估图像的有害性，并提供评分和解释。
将这些信息（提示、标题、评分和解释）添加到对话历史中，并将其发送给攻击者模型，该模型会提出改进提示的建议，并生成新的图像生成提示。
这个过程循环进行，直到达到最大迭代次数，生成的优化图像会与原始排版垂直拼接。

步骤 3: 通过梯度更新放大图像有害性（Amplifying Image Harmfulness with Gradient Update）

在这一步中，HADES通过梯度更新进一步增强攻击图像的有效性。具体操作如下：

将优化后的图像（iadv）与之前的图像（iopt 和 ityp）拼接，形成最终的图像输入。
为了确保攻击图像的泛化能力，对同一类别中的所有有害指令生成单个对抗性图像。
使用目标MLLM提供一个有害指令和对抗性图像，然后选择一个肯定的响应作为目标标签，并计算模型输出与此目标之间的交叉熵损失。
使用从损失中得到的梯度来迭代地细化对抗性图像，直到达到所需的攻击效果。

通过这三个步骤，HADES能够有效地越狱现有的MLLMs，实现高攻击成功率。这种方法不仅揭示了MLLMs在视觉模态方面的对齐漏洞，也为未来如何提高MLLMs的安全性和无害性对齐提供了新的视角。

本文实验

实验部分对代表性的开源和闭源MLLMs进行了系统调查，以检验视觉输入如何影响MLLMs的无害性对齐。实验结果表明，图像可以作为MLLMs无害性对齐的后门，显著增加MLLMs输出的有害性比例。此外，跨模态微调会破坏给定MLLM的LLM对齐能力，微调的参数越多，破坏越严重。

实验结论

实验结果表明，HADES可以有效地越狱现有的MLLMs，对于LLaVA-1.5实现了平均攻击成功率（ASR）为90.26%，对于Gemini Pro Vision为71.60%。

全文结论

本文的研究表明，图像是MLLMs对齐漏洞的关键所在，这强调了进一步探索跨模态对齐的迫切需求。未来的工作将考虑改进越狱策略，以更有效地越狱像GPT-4V这样对齐良好的MLLMs，并设计跨模态对齐方法来增强MLLMs的无害性对齐。

阅读总结报告

本篇论文深入研究了多模态大型语言模型（MLLMs）在无害性对齐方面的脆弱性，并提出了一种新型的越狱方法HADES，该方法利用图像来隐藏和放大文本输入中的恶意意图。通过实证分析，论文揭示了图像输入对MLLMs无害性对齐的影响，并展示了HADES在越狱MLLMs方面的有效性。实验结果强调了视觉模态引入的安全漏洞，为未来在MLLMs中增强无害性对齐提供了重要的研究方向。

PreviousTransferable Multimodal Attack on Vision-Language Pre-training Models NextAN IMAGE IS WORTH 1000 LIES: ADVERSARIAL TRANSFERABILITY ACROSS PROMPTS ON VISIONLANGUAGE MODELS

Last updated 1 year ago