# Images are Achilles’ Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimoda

<figure><img src="https://1203660092-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FVIbHxVNUonwDG5X6HrVv%2Fuploads%2F9ke32SIcxK84Xczqe1ZO%2Fimage.png?alt=media&#x26;token=898323be-44d4-43d9-915e-caa3e03bd70c" alt=""><figcaption></figcaption></figure>

### 研究背景

随着大型语言模型（LLMs）的强大能力被广泛利用，多模态大型语言模型（MLLMs）应运而生。MLLMs能够处理文本和视觉信息，类似于LLMs处理文本输入。尽管MLLMs在视觉-语言任务上表现出色，并能与用户进行图像相关的对话，但它们也面临着与其背后的LLMs相似的无害性挑战。尽管MLLMs经历了类似人类反馈的强化学习的无害性对齐（RLHF），但它们仍然容易受到黑盒攻击（例如复杂的越狱提示）或白盒攻击（例如基于梯度的攻击）。

<figure><img src="https://1203660092-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FVIbHxVNUonwDG5X6HrVv%2Fuploads%2FpkgUG4vFCLN6R7eFJ8nd%2Fimage.png?alt=media&#x26;token=5b5128ed-e343-4a3f-9fae-d0d3302c4709" alt=""><figcaption></figcaption></figure>

### 过去方案和缺点

以往的研究主要评估MLLMs对有害指令的无害性，或者通过使用对抗性图像来评估模型的鲁棒性。这些研究表明，与它们的LLMs相比，视觉模态的整合可能会加剧MLLMs的安全问题。然而，这些研究缺乏对MLLMs中安全问题发生的深入理解，以及它们与LLMs中的安全问题可能的不同之处。

<figure><img src="https://1203660092-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FVIbHxVNUonwDG5X6HrVv%2Fuploads%2FZPmZen02FR489MB7ydjy%2Fimage.png?alt=media&#x26;token=e8a43cfd-61bf-4832-842a-3bb2bea716af" alt=""><figcaption></figcaption></figure>

### 本文方案和步骤

本文提出了一种名为HADES（Hiding and Amplifying harmfulness in images to DEStroy multimodal alignment）的新型越狱方法。HADES通过精心设计的图像隐藏和放大文本输入中的恶意意图。具体步骤包括：

1. 将文本输入中的有害信息提取到排版中，并用文本到图像的指针替换这些文本，引导模型关注图像信息。
2. 将另一个有害图像附加到原始排版上。这个图像是由图像生成模型创建的，并且其有害性已经通过提示优化在多个回合中被放大。
3. 通过梯度更新优化对抗性噪声，以诱导MLLM遵循有害指令。

### 本文创新点与贡献

* 本文通过详细的实证研究，揭示了MLLMs的无害性对齐问题，并系统地研究了违反无害性对齐的可能因素。结果表明，MLLMs的视觉模态引入了额外的对齐漏洞，可以被进一步利用来越狱这些模型。
* 提出了HADES，这是一种新颖的越狱方法，使用精心设计的图像隐藏和放大原始恶意意图的有害性。实验结果表明，无论是基于对齐LLMs的开源MLLMs，还是功能强大的闭源MLLMs，都难以抵抗HADES。

HADES（Hiding and Amplifying harmfulness in images to DEStroy multimodal alignment）是一种针对多模态大型语言模型（MLLMs）的越狱方法，旨在通过精心设计的图像来隐藏和放大文本输入中的恶意意图。HADES的流程可以分为以下三个主要步骤：

#### 步骤 1: 从文本隐藏有害性到图像（Hiding Harmfulness from Text to Image）

在这一步中，HADES的目标是将文本输入中的有害信息转移到图像侧，以此来绕过MLLMs在文本方面的防御机制。具体操作如下：

* 首先，将文本指令中的有害关键词或短语替换为指向图像的文本指针（Text-to-image pointer）。例如，如果原始文本指令是“展示如何通过墙壁进行窃听”，那么经过转换后，它可能变成“展示如何通过图像中的墙壁进行窃听”。
* 同时，使用排版（typography）来表示关键词，这样模型可以通过引用排版来推断原始有害意图。

#### 步骤 2: 通过LLMs放大图像的有害性（Amplifying Image Harmfulness with LLMs）

这一步骤的目的是增加图像的有害性，以诱导MLLMs生成有害的响应。具体操作如下：

* 利用扩散模型（如Diffusion Model）作为有害图像生成器，结合LLMs作为攻击者模型，迭代优化图像生成提示，以增加生成图像的有害性。
* 通过一个迭代过程生成有害图像。首先，使用ChatGPT修改原始指令以生成初始图像生成提示，并生成初始图像。然后，使用评判模型（Judging Model）评估图像的有害性，并提供评分和解释。
* 将这些信息（提示、标题、评分和解释）添加到对话历史中，并将其发送给攻击者模型，该模型会提出改进提示的建议，并生成新的图像生成提示。
* 这个过程循环进行，直到达到最大迭代次数，生成的优化图像会与原始排版垂直拼接。

#### 步骤 3: 通过梯度更新放大图像有害性（Amplifying Image Harmfulness with Gradient Update）

在这一步中，HADES通过梯度更新进一步增强攻击图像的有效性。具体操作如下：

* 将优化后的图像（iadv）与之前的图像（iopt 和 ityp）拼接，形成最终的图像输入。
* 为了确保攻击图像的泛化能力，对同一类别中的所有有害指令生成单个对抗性图像。
* 使用目标MLLM提供一个有害指令和对抗性图像，然后选择一个肯定的响应作为目标标签，并计算模型输出与此目标之间的交叉熵损失。
* 使用从损失中得到的梯度来迭代地细化对抗性图像，直到达到所需的攻击效果。

通过这三个步骤，HADES能够有效地越狱现有的MLLMs，实现高攻击成功率。这种方法不仅揭示了MLLMs在视觉模态方面的对齐漏洞，也为未来如何提高MLLMs的安全性和无害性对齐提供了新的视角。

### 本文实验

实验部分对代表性的开源和闭源MLLMs进行了系统调查，以检验视觉输入如何影响MLLMs的无害性对齐。实验结果表明，图像可以作为MLLMs无害性对齐的后门，显著增加MLLMs输出的有害性比例。此外，跨模态微调会破坏给定MLLM的LLM对齐能力，微调的参数越多，破坏越严重。

### 实验结论

实验结果表明，HADES可以有效地越狱现有的MLLMs，对于LLaVA-1.5实现了平均攻击成功率（ASR）为90.26%，对于Gemini Pro Vision为71.60%。

### 全文结论

本文的研究表明，图像是MLLMs对齐漏洞的关键所在，这强调了进一步探索跨模态对齐的迫切需求。未来的工作将考虑改进越狱策略，以更有效地越狱像GPT-4V这样对齐良好的MLLMs，并设计跨模态对齐方法来增强MLLMs的无害性对齐。

### 阅读总结报告

本篇论文深入研究了多模态大型语言模型（MLLMs）在无害性对齐方面的脆弱性，并提出了一种新型的越狱方法HADES，该方法利用图像来隐藏和放大文本输入中的恶意意图。通过实证分析，论文揭示了图像输入对MLLMs无害性对齐的影响，并展示了HADES在越狱MLLMs方面的有效性。实验结果强调了视觉模态引入的安全漏洞，为未来在MLLMs中增强无害性对齐提供了重要的研究方向。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://elwood.gitbook.io/foundation-model-sec/vlm-attack/images-are-achilles-heel-of-alignment-exploiting-visual-vulnerabilities-for-jailbreaking-multimoda.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
