大模型安全笔记

Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation

研究背景

随着多模态大型语言模型（MLLMs）的发展，它们在理解和生成涉及图像和文本的内容方面展现出了令人印象深刻的能力。然而，这些模型在继承传统大型语言模型（LLMs）的安全机制方面面临着挑战。尽管MLLMs能够检测到不安全的回答，但由于图像特征的引入，它们的安全性机制容易被绕过。因此，如何构建更加安全的MLLMs成为了一个亟待解决的问题。

过去方案和缺点

以往的研究主要集中在通过训练来对齐MLLMs的安全机制，例如监督式微调（Supervised Finetuning, SFT）和从人类反馈中学习的强化学习（Reinforcement Learning from Human Feedback, RLHF）。这些方法需要精心设计的对抗性查询来诱导LLMs生成有害回答，这在涉及图像输入时变得更加具有挑战性。此外，这些方法需要大量的人工干预和额外的训练过程，这不仅成本高昂，而且可能无法涵盖所有潜在的攻击向量。

本文方案和步骤

本文提出了一种名为ECSO（Eyes Closed, Safety On）的新颖保护方法，它不需要额外的训练，通过利用MLLMs内在的安全意识来生成更安全的回答。ECSO的主要步骤包括：

有害内容检测：首先，ECSO利用MLLMs对自身回答的安全性进行评估。
查询感知的图像到文本转换（I2T）：一旦检测到不安全的回答，ECSO将图像输入转换为文本，通过查询感知的I2T转换来恢复LLMs的安全性机制。
无图像的安全回答生成：转换后的文本输入用于生成不包含图像的安全回答。

ECSO（Eyes Closed, Safety On）是一个旨在保护多模态大型语言模型（MLLMs）免受攻击的安全增强方法。它的处理流程可以分为以下几个关键步骤：

用户查询与模型响应：
- 用户向MLLM提出一个包含图像和文本的查询。
- MLLM根据查询生成一个初始响应。
安全性自检：
- MLLM使用一个特定的提示模板（prompt template）来评估其生成的响应是否安全。
- 这个自检过程涉及到模型对自己生成的响应进行判断，以确定是否存在有害或不安全的内容。
查询感知的图像到文本转换（I2T）：
- 如果检测到响应不安全，ECSO将执行一个查询感知的图像到文本的转换过程。
- 这个过程通过再次提示MLLM，使用一个包含原始查询的模板来生成一个与查询相关的图像描述（caption）。
- 生成的描述旨在保留图像中的关键信息，同时避免包含可能诱发不安全回答的内容。
无图像的安全回答生成：
- 接下来，ECSO会移除图像输入，仅使用上一步生成的文本描述。
- MLLM根据这个纯文本描述再次生成回答，这次没有图像输入的干扰。
- 由于MLLM在没有图像的情况下更倾向于生成安全的响应，这一步骤有助于恢复其内在的安全机制。
安全输出提供给用户：
- 最终，如果MLLM生成的回答被认为是安全的，这个回答就会被提供给用户。
- 如果在这个过程中任何一个步骤检测到不安全的内容，ECSO将继续调整直到生成安全的输出。

ECSO的核心在于它不需要对模型进行额外的训练，而是巧妙地利用了MLLMs已有的安全机制。通过将图像信息转换为文本，并在没有图像的情况下生成回答，ECSO能够有效地规避图像可能引入的安全风险，同时保持模型的实用性能。这种方法在提高MLLMs的安全性方面表现出显著的效果，同时避免了对模型进行昂贵和复杂的再训练。

本文创新点与贡献

新颖的保护策略：ECSO是一种无需训练的保护策略，它利用MLLMs的内在安全机制来提高模型的安全性。
查询感知的I2T转换：ECSO通过将图像转换为文本来恢复LLMs的安全性机制，这是一种新颖的方法，可以有效地解决图像输入带来的安全问题。
安全性与实用性的平衡：ECSO在提高模型安全性的同时，保持了MLLMs在常见基准测试中的实用性能。

本文实验

实验在五个最先进的MLLMs上进行，包括LLaVA-1.5-7B、ShareGPT4V-7B、mPLUG-OWL2-7B、Qwen-VL-Chat和InternLMXComposer。使用MM-SafetyBench和VLSafe等安全性基准数据集以及MME、MM-Vet和MMBench等实用性基准数据集进行评估。

实验结论

实验结果表明，ECSO显著提高了MLLMs的安全性，例如在MM-SafetyBench（SD+OCR）上提高了37.6%，在VLSafe上提高了71.3%，同时在常见的MLLM基准测试中保持了一致的实用性能。

全文结论

ECSO提供了一种有效的MLLM保护方法，能够在不牺牲实用性的情况下显著提高模型的安全性。此外，ECSO还可以作为数据引擎，用于生成用于MLLM对齐的SFT数据，无需额外的人工干预。这些贡献为构建更安全的MLLMs提供了有价值的指导。

阅读总结报告

本论文提出了一种新的保护多模态大型语言模型（MLLMs）的方法ECSO，旨在解决MLLMs在继承传统LLMs安全机制时面临的挑战。通过查询感知的图像到文本转换和无图像的安全回答生成，ECSO能够在不进行额外训练的情况下提高MLLMs的安全性。实验结果证明了ECSO在多个最先进的MLLMs上的有效性，它不仅显著提高了模型的安全性，还保持了良好的实用性能。此外，ECSO还可以作为数据引擎，为MLLM的安全对齐生成数据，减少了人工干预的需求。这项工作为未来MLLMs的安全性研究提供了新的方向和实用工具。

PreviousMitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding NextUNDERSTANDING ZERO-SHOT ADVERSARIAL ROBUSTNESS FOR LARGE-SCALE MODELS

Last updated 1 year ago