Learning To See But Forgetting To Follow: Visual Instruction Tuning Makes LLMs More Prone To Jailbre

研究背景

本研究探讨了在大型语言模型(LLMs)中加入图像理解能力后,所形成的高性能视觉-语言模型(VLMs)的安全性问题。尽管LLMs在对齐人类价值观方面受到了广泛关注,但VLMs的安全性尚未得到同等关注。研究者们通过三个不同的VLMs来探索“越狱攻击”(jailbreaking)的影响,这些模型采用不同的建模方法,并且发现相比于它们各自的LLMs,每个VLM都更容易受到越狱攻击的影响。

过去方案和缺点

以往的研究主要集中在LLMs的一般能力展示上,例如ChatGPT和Gemini等模型的广泛部署。这些模型虽然表现出一定程度的通用能力,但也显示出对恶意提示的易感性。越狱攻击是一种恶意提示,旨在诱使LLMs生成它们本应拒绝的潜在有害内容。尽管已有工作尝试通过模型开发中的安全机制来约束模型行为,使其更符合人类偏好,但LLMs仍然容易受到越狱攻击的影响。

本文方案和步骤

本文提出了一个实验设置,通过使用公开可用的VLMs和它们衍生自的LLMs,采用越狱技术在八个不同的场景中进行提示,来测试视觉指令调整对模型安全性的影响。研究者们选择了三种VLMs和它们对应的LLMs,因为这些模型在多模态任务中表现出色,它们在连接视觉和语言模型方面采用了不同的方法,并且在它们的LLM开发过程中融入了安全机制。

本文创新点与贡献

  • 越狱攻击的系统研究:对VLMs在面对越狱攻击时的脆弱性进行了系统的实验研究。

  • 安全性评估:提出了基于评估策略的建议,旨在突出VLMs的弱点,并在视觉指令调整期间考虑安全措施。

  • 视觉指令调整的影响:研究了视觉指令调整如何影响LLMs的安全防护措施,发现这种调整可能会损害在LLM训练期间建立的安全防护。

本文实验

实验包括三个VLMs和它们的LLM对应物,使用来自Liu等人(2023d)的越狱提示数据集进行查询。研究者们使用了160个查询来评估模型对越狱攻击的敏感性,并通过不同的条件(原始提示与越狱提示,检索图像与空白图像)来模拟VLMs的常见下游用例。

实验结论

实验结果显示,所有VLMs相比于它们的LLMs生成了更多的有害响应。特别是,当提供语义相关的图像时,VLMs更倾向于生成潜在有害的内容。此外,使用越狱预提示时,模型更可能生成有害响应。

全文结论

文章指出,依赖于LLMs的安全对齐可能低估了VLMs的潜在漏洞。作者通过分析三个在公共基准测试中表现出色的VLMs,展示了视觉指令调整可能使它们更容易产生有害响应,无论是在越狱攻击的情况下还是在没有攻击的情况下。文章还提供了关于核心评估程序的建议,并提出了在视觉指令调整的连续训练阶段中纳入安全措施的建议。

阅读总结报告

这篇论文《Learning To See But Forgetting To Follow: Visual Instruction Tuning Makes LLMs More Prone To Jailbreak Attacks》由Georgios Pantazopoulos等人撰写,主要研究了视觉指令调整对大型语言模型安全性的影响。研究发现,将视觉理解能力添加到LLMs中形成的VLMs在面对越狱攻击时,相比其基础的LLMs更容易受到影响。文章通过对比分析和实验验证了这一点,并提出了未来工作的建议,包括创建更全面的安全评估基准和在所有训练阶段中考虑安全性。

文章的创新之处在于它不仅关注了VLMs的性能,而且还关注了它们的安全性,这是一个在快速发展的AI领域中经常被忽视但非常重要的方面。研究结果强调了在引入新模态时考虑训练阶段、训练数据以及评估和减轻潜在危害的重要性。最终,文章呼吁在发展VLMs的同时,也要对其安全性给予足够的重视,以确保技术的健康发展。

Last updated