Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models

视觉大型语言模型（VLLMs）结合了视觉和语言能力，展现出显著的多模态能力。然而，这些模型在生成有害内容和对抗性攻击方面存在脆弱性。具体来说，VLLMs在进行视觉-语言指令微调时可能会遗忘之前学习到的安全对齐，导致比基础的大型语言模型（LLMs）更容易受到攻击。

过去的研究集中在通过增强学习（RLHF）等方法来保护LLMs，但这些方法资源密集且难以训练。对于VLLMs，现有的文本中心的安全技术不能直接应用，因为VLLMs面临的风险更大，包括文本输入和视觉-语言输入。此外，现有的VLLMs安全技术并不存在。

为了解决VLLMs的安全问题，本文提出了一种简单而有效的安全微调策略：

实验包括：

本文提出了VLGuard数据集和相应的微调策略，有效提高了VLLMs的安全性，同时保持了模型的有益性。尽管这是一个重要的进步，但作者也指出，这种方法可能无法抵御更复杂和精细的攻击方法。

摘要

本文针对视觉大型语言模型（VLLMs）的安全问题，提出了一种新的安全微调策略和数据集VLGuard。通过微调，VLLMs在保持有益性的同时，显著提高了安全性。

研究内容

创新点

实验结果

结论

VLGuard数据集和微调策略为VLLMs提供了一种有效的安全增强方法。尽管如此，仍需进一步研究以抵御更复杂的攻击。

建议

未来的研究应考虑将VLGuard数据集集成到VLLMs的训练中，并探索更强大的安全机制。同时，随着VLLMs的不断发展，持续评估和更新安全措施至关重要。

Last updated 1 year ago