# Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation

<figure><img src="https://1203660092-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FVIbHxVNUonwDG5X6HrVv%2Fuploads%2FKlfkjw3tXJI2hKdEB30X%2Fimage.png?alt=media&#x26;token=39592492-8618-4dc5-8908-cd8bcd2d1043" alt=""><figcaption></figcaption></figure>

#### 研究背景

多模态大型语言模型（MLLMs）因其卓越的多模态能力而受到广泛关注。这些模型在大型语言模型（LLMs）的基础上，通过与预训练的视觉编码器结合，能够处理包含图像输入的对话。然而，MLLMs在继承其前身LLMs的安全机制时面临挑战。尽管MLLMs在检测不安全响应方面仍具备能力，但研究表明，由于图像特征的引入，MLLMs的安全机制容易被绕过。

#### 过去方案和缺点

以往的研究中，为了增强MLLMs的安全性，通常采用基于训练的对齐策略，如监督式微调（SFT）和基于人类反馈的强化学习（RLHF）。这些方法需要精心设计能够成功诱导LLMs生成有害响应的红队查询，并且当涉及图像输入时变得更加具有挑战性。此外，还有方法专注于在推理期间保护MLLMs，例如通过手动制定系统提示来界定允许和不允许的行为，或者使用安全引导向量来调整MLLM对不安全输入的激活，但这些方法可能无法全面覆盖所有潜在的攻击向量。

#### 本文方案和步骤

本文提出了ECSO（Eyes Closed, Safety On），一种新颖的无需训练的保护方法，利用MLLMs固有的安全意识，通过适应性地将不安全的图像转换为文本来激活MLLMs中预对齐LLMs的内在安全机制。ECSO的主要步骤包括：

1. **有害内容检测**：使用MLLM评估自身响应的安全性。
2. **查询感知的图像到文本（I2T）转换**：将图像输入转换为文本，以保留图像信息。
3. **无需图像的安全响应生成**：在没有图像的情况下，使用转换后的文本生成安全响应。

#### 本文创新点与贡献

1. 展示了MLLMs虽然容易受到攻击，但能够检测自身响应中的不安全内容，并继承了预对齐LLMs的安全机制。
2. 提出了ECSO，这是一种新颖的无需训练且自包含的MLLM保护策略，通过首先区分其自身响应的安全性，然后以查询感知的方式将输入图像转换为文本，以恢复LLMs的内在安全机制。
3. ECSO显著提高了五个最先进MLLMs的安全性，例如在MM-SafetyBench（SD+OCR）上提高了37.6%，在VLSafe上对LLaVA-1.5-7B提高了71.3%，同时没有牺牲它们在常用MLLM基准测试中的性能。

#### 本文实验

实验在五个最先进的MLLM基准测试上进行，包括LLaVA-1.5-7B、ShareGPT4V-7B、mPLUG-OWL2-7B、Qwen-VL-Chat和InternLMXComposer。实验评估了ECSO在安全性和实用性方面的表现，并与直接提示MLLMs进行比较。此外，还展示了ECSO可以作为数据引擎生成用于MLLM对齐的监督式微调（SFT）数据，无需额外的人工干预。

#### 实验结论

ECSO能够显著提高MLLMs的安全性，同时保持在常用MLLM基准测试中的实用性能。此外，ECSO生成的数据与人工验证的数据具有可比性或甚至更好的质量，提供了更好的安全性和实用性之间的权衡。

#### 全文结论

ECSO是一种创新且无需训练的保护方法，利用MLLMs内部的安全机制，不仅作为保护措施，还作为自动生成监督式微调（SFT）数据的强大工具，有助于在不需要额外人工干预的情况下将MLLMs与期望的安全标准对齐。

注：

在论文 "Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation" 中，检测MLLMs（多模态大型语言模型）自身响应中的不安全内容是通过以下步骤实现的：

1. **初始响应生成**：首先，MLLM接收到一个带有图像和文本查询的输入，并生成一个初始响应。这个响应可能包含不安全内容，因为MLLMs容易受到恶意查询的影响。
2. **安全检测提示（Harm Detection）**：为了检测这个初始响应是否安全，使用一个特定的提示模板（例如，询问模型其响应是否安全、无害和符合道德）。这个提示模板用于引导MLLM对自己的响应进行自我评估。
3. **自我评估**：MLLM利用自身的安全意识来评估其生成的响应。这个过程涉及到模型接收到的查询和生成的响应，以及安全检测提示。
4. **安全指示输出**：MLLM根据安全检测提示，输出一个安全指示（s），这个指示表明了模型预测的自身响应的安全性。
5. **决策**：如果模型的自我评估认为生成的响应是安全的，那么这个响应将被接受并可能被返回给用户。如果评估结果表明响应是不安全的，那么将触发ECSO方法中的下一步，即图像到文本的转换。
6. **图像到文本转换（I2T Transformation）**：不安全的图像输入将被转换成文本。这一步骤旨在通过转换来消除或减轻可能诱发有害响应的视觉内容。
7. **无需图像的安全响应生成**：在图像转换为文本之后，MLLM将再次被提示生成响应，但这次不包括原始图像，只使用文本。这样可以利用LLMs原有的安全机制来生成一个安全的响应。

通过上述步骤，ECSO方法能够有效地检测和过滤掉MLLMs在响应中的不安全内容，同时保留了模型的多模态能力。这种方法强调了无需额外训练，而是依靠MLLMs固有的安全机制，通过适应性转换输入来增强安全性。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://elwood.gitbook.io/foundation-model-sec/vlm-defense/eyes-closed-safety-on-protecting-multimodal-llms-via-image-to-text-transformation.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
