Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation
Last updated
Last updated
多模态大型语言模型(MLLMs)因其卓越的多模态能力而受到广泛关注。这些模型在大型语言模型(LLMs)的基础上,通过与预训练的视觉编码器结合,能够处理包含图像输入的对话。然而,MLLMs在继承其前身LLMs的安全机制时面临挑战。尽管MLLMs在检测不安全响应方面仍具备能力,但研究表明,由于图像特征的引入,MLLMs的安全机制容易被绕过。
以往的研究中,为了增强MLLMs的安全性,通常采用基于训练的对齐策略,如监督式微调(SFT)和基于人类反馈的强化学习(RLHF)。这些方法需要精心设计能够成功诱导LLMs生成有害响应的红队查询,并且当涉及图像输入时变得更加具有挑战性。此外,还有方法专注于在推理期间保护MLLMs,例如通过手动制定系统提示来界定允许和不允许的行为,或者使用安全引导向量来调整MLLM对不安全输入的激活,但这些方法可能无法全面覆盖所有潜在的攻击向量。
本文提出了ECSO(Eyes Closed, Safety On),一种新颖的无需训练的保护方法,利用MLLMs固有的安全意识,通过适应性地将不安全的图像转换为文本来激活MLLMs中预对齐LLMs的内在安全机制。ECSO的主要步骤包括:
有害内容检测:使用MLLM评估自身响应的安全性。
查询感知的图像到文本(I2T)转换:将图像输入转换为文本,以保留图像信息。
无需图像的安全响应生成:在没有图像的情况下,使用转换后的文本生成安全响应。
展示了MLLMs虽然容易受到攻击,但能够检测自身响应中的不安全内容,并继承了预对齐LLMs的安全机制。
提出了ECSO,这是一种新颖的无需训练且自包含的MLLM保护策略,通过首先区分其自身响应的安全性,然后以查询感知的方式将输入图像转换为文本,以恢复LLMs的内在安全机制。
ECSO显著提高了五个最先进MLLMs的安全性,例如在MM-SafetyBench(SD+OCR)上提高了37.6%,在VLSafe上对LLaVA-1.5-7B提高了71.3%,同时没有牺牲它们在常用MLLM基准测试中的性能。
实验在五个最先进的MLLM基准测试上进行,包括LLaVA-1.5-7B、ShareGPT4V-7B、mPLUG-OWL2-7B、Qwen-VL-Chat和InternLMXComposer。实验评估了ECSO在安全性和实用性方面的表现,并与直接提示MLLMs进行比较。此外,还展示了ECSO可以作为数据引擎生成用于MLLM对齐的监督式微调(SFT)数据,无需额外的人工干预。
ECSO能够显著提高MLLMs的安全性,同时保持在常用MLLM基准测试中的实用性能。此外,ECSO生成的数据与人工验证的数据具有可比性或甚至更好的质量,提供了更好的安全性和实用性之间的权衡。
ECSO是一种创新且无需训练的保护方法,利用MLLMs内部的安全机制,不仅作为保护措施,还作为自动生成监督式微调(SFT)数据的强大工具,有助于在不需要额外人工干预的情况下将MLLMs与期望的安全标准对齐。
注:
在论文 "Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation" 中,检测MLLMs(多模态大型语言模型)自身响应中的不安全内容是通过以下步骤实现的:
初始响应生成:首先,MLLM接收到一个带有图像和文本查询的输入,并生成一个初始响应。这个响应可能包含不安全内容,因为MLLMs容易受到恶意查询的影响。
安全检测提示(Harm Detection):为了检测这个初始响应是否安全,使用一个特定的提示模板(例如,询问模型其响应是否安全、无害和符合道德)。这个提示模板用于引导MLLM对自己的响应进行自我评估。
自我评估:MLLM利用自身的安全意识来评估其生成的响应。这个过程涉及到模型接收到的查询和生成的响应,以及安全检测提示。
安全指示输出:MLLM根据安全检测提示,输出一个安全指示(s),这个指示表明了模型预测的自身响应的安全性。
决策:如果模型的自我评估认为生成的响应是安全的,那么这个响应将被接受并可能被返回给用户。如果评估结果表明响应是不安全的,那么将触发ECSO方法中的下一步,即图像到文本的转换。
图像到文本转换(I2T Transformation):不安全的图像输入将被转换成文本。这一步骤旨在通过转换来消除或减轻可能诱发有害响应的视觉内容。
无需图像的安全响应生成:在图像转换为文本之后,MLLM将再次被提示生成响应,但这次不包括原始图像,只使用文本。这样可以利用LLMs原有的安全机制来生成一个安全的响应。
通过上述步骤,ECSO方法能够有效地检测和过滤掉MLLMs在响应中的不安全内容,同时保留了模型的多模态能力。这种方法强调了无需额外训练,而是依靠MLLMs固有的安全机制,通过适应性转换输入来增强安全性。