Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation

研究背景

多模态大型语言模型（MLLMs）因其卓越的多模态能力而受到广泛关注。这些模型在大型语言模型（LLMs）的基础上，通过与预训练的视觉编码器结合，能够处理包含图像输入的对话。然而，MLLMs在继承其前身LLMs的安全机制时面临挑战。尽管MLLMs在检测不安全响应方面仍具备能力，但研究表明，由于图像特征的引入，MLLMs的安全机制容易被绕过。

过去方案和缺点

以往的研究中，为了增强MLLMs的安全性，通常采用基于训练的对齐策略，如监督式微调（SFT）和基于人类反馈的强化学习（RLHF）。这些方法需要精心设计能够成功诱导LLMs生成有害响应的红队查询，并且当涉及图像输入时变得更加具有挑战性。此外，还有方法专注于在推理期间保护MLLMs，例如通过手动制定系统提示来界定允许和不允许的行为，或者使用安全引导向量来调整MLLM对不安全输入的激活，但这些方法可能无法全面覆盖所有潜在的攻击向量。

本文方案和步骤

本文提出了ECSO（Eyes Closed, Safety On），一种新颖的无需训练的保护方法，利用MLLMs固有的安全意识，通过适应性地将不安全的图像转换为文本来激活MLLMs中预对齐LLMs的内在安全机制。ECSO的主要步骤包括：

有害内容检测：使用MLLM评估自身响应的安全性。
查询感知的图像到文本（I2T）转换：将图像输入转换为文本，以保留图像信息。
无需图像的安全响应生成：在没有图像的情况下，使用转换后的文本生成安全响应。

本文创新点与贡献

展示了MLLMs虽然容易受到攻击，但能够检测自身响应中的不安全内容，并继承了预对齐LLMs的安全机制。
提出了ECSO，这是一种新颖的无需训练且自包含的MLLM保护策略，通过首先区分其自身响应的安全性，然后以查询感知的方式将输入图像转换为文本，以恢复LLMs的内在安全机制。
ECSO显著提高了五个最先进MLLMs的安全性，例如在MM-SafetyBench（SD+OCR）上提高了37.6%，在VLSafe上对LLaVA-1.5-7B提高了71.3%，同时没有牺牲它们在常用MLLM基准测试中的性能。

本文实验

实验在五个最先进的MLLM基准测试上进行，包括LLaVA-1.5-7B、ShareGPT4V-7B、mPLUG-OWL2-7B、Qwen-VL-Chat和InternLMXComposer。实验评估了ECSO在安全性和实用性方面的表现，并与直接提示MLLMs进行比较。此外，还展示了ECSO可以作为数据引擎生成用于MLLM对齐的监督式微调（SFT）数据，无需额外的人工干预。

实验结论

ECSO能够显著提高MLLMs的安全性，同时保持在常用MLLM基准测试中的实用性能。此外，ECSO生成的数据与人工验证的数据具有可比性或甚至更好的质量，提供了更好的安全性和实用性之间的权衡。

全文结论

ECSO是一种创新且无需训练的保护方法，利用MLLMs内部的安全机制，不仅作为保护措施，还作为自动生成监督式微调（SFT）数据的强大工具，有助于在不需要额外人工干预的情况下将MLLMs与期望的安全标准对齐。

注：

在论文 "Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation" 中，检测MLLMs（多模态大型语言模型）自身响应中的不安全内容是通过以下步骤实现的：

初始响应生成：首先，MLLM接收到一个带有图像和文本查询的输入，并生成一个初始响应。这个响应可能包含不安全内容，因为MLLMs容易受到恶意查询的影响。
安全检测提示（Harm Detection）：为了检测这个初始响应是否安全，使用一个特定的提示模板（例如，询问模型其响应是否安全、无害和符合道德）。这个提示模板用于引导MLLM对自己的响应进行自我评估。
自我评估：MLLM利用自身的安全意识来评估其生成的响应。这个过程涉及到模型接收到的查询和生成的响应，以及安全检测提示。
安全指示输出：MLLM根据安全检测提示，输出一个安全指示（s），这个指示表明了模型预测的自身响应的安全性。
决策：如果模型的自我评估认为生成的响应是安全的，那么这个响应将被接受并可能被返回给用户。如果评估结果表明响应是不安全的，那么将触发ECSO方法中的下一步，即图像到文本的转换。
图像到文本转换（I2T Transformation）：不安全的图像输入将被转换成文本。这一步骤旨在通过转换来消除或减轻可能诱发有害响应的视觉内容。
无需图像的安全响应生成：在图像转换为文本之后，MLLM将再次被提示生成响应，但这次不包括原始图像，只使用文本。这样可以利用LLMs原有的安全机制来生成一个安全的响应。

通过上述步骤，ECSO方法能够有效地检测和过滤掉MLLMs在响应中的不安全内容，同时保留了模型的多模态能力。这种方法强调了无需额外训练，而是依靠MLLMs固有的安全机制，通过适应性转换输入来增强安全性。

PreviousAdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Sh NextMLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance

Last updated 1 year ago