Safety Alignment for Vision Language Models

1. 研究背景

本研究背景基于大型语言模型（LLMs）的强大能力，通过将预训练的视觉编码器模型与LLMs连接，实现了视觉语言模型（VLMs）。然而，现有研究表明，VLMs的视觉模态容易受到攻击，攻击者可以轻易绕过LLMs的安全对齐，通过视觉模态特征发起攻击。

2. 过去方案和缺点

过去对多模态语言模型的安全性对齐研究不足，导致这些模型在部署时容易受到攻击。尽管对LLMs本身进行了安全性对齐，但视觉模态能有效绕过模型的安全对齐，使其成为输入中最脆弱的模态。例如，LLaVA模型在遇到色情图片时会产生明确的色情描述，并在处理包含歧视性内容的图片时产生不当内容。

3. 本文方案和步骤

本文提出了一种新的安全性对齐策略，通过添加安全模块（包括安全投影器、安全标记和安全头部）并通过两阶段训练过程来增强现有VLMs的视觉模态安全性对齐，有效提高了模型对风险图像的防御能力。具体步骤如下：

第一阶段：冻结LLMs，学习安全特征，并使这些特征与LLM输入对齐。
第二阶段：解冻LLMs，增强它们对不安全内容的理解。

4. 本文创新点与贡献

提出了一种新的安全性对齐策略，显著提高了VLMs的安全性得分和防止生成色情、歧视、非法内容等的能力。
策划了一个包含六种不安全类别的不安全图像数据集和图文对数据集，用于对齐VLMs中的不安全视觉模态输入。
使用常见的VLM评估基准，证明了该方法对模型的一般能力影响最小，并探索了不安全数据比例对模型性能的影响。

5. 本文实验

实验设置包括了模型选择、数据集、评估指标以及安全性性能和一般性能的评估。使用了RTVLM基准和GPT-4基于的方法来评估模型的安全性性能，并使用MMBench、SEED和MME等基准来评估一般性能。

6. 实验结论

实验结果表明，SafeVLM在安全性方面超过了GPT-4V，在其他风险数据集和文本攻击数据集上也显示出显著的改进。值得注意的是，在提高安全性性能的同时，模型的一般性能也得到了保持。

7. 全文结论

通过引入包括安全投影器、安全标记和指定的安全头部在内的视觉模态安全性对齐策略，SafeVLM在安全性基准RTVLM方面超越了GPT-4V，并在其他风险数据集和文本攻击数据集上显示出显著的改进。此外，提高的安全性并没有以牺牲一般性能为代价。

阅读总结

本文针对视觉语言模型（VLMs）在安全对齐方面的脆弱性，提出了一种新的安全性增强策略。通过两阶段训练法和三个新增的安全模块，有效地提升了模型对风险图像的防御能力。实验结果证明了该方法在保持一般性能的同时，显著提高了模型的安全性。这项工作不仅为VLMs的安全性提供了一种有效的解决方案，也为未来在敏感领域的应用奠定了基础。

PreviousRemoving NSFW Concepts from Vision-and-Language Models for Text-to-Image Retrieval and Generation NextAdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Sh

Last updated 1 year ago