大模型安全笔记

Learning To See But Forgetting To Follow: Visual Instruction Tuning Makes LLMs More Prone To Jailbre

研究背景

本研究探讨了在大型语言模型（LLMs）中加入图像理解能力后，所形成的高性能视觉-语言模型（VLMs）的安全性问题。尽管LLMs在对齐人类价值观方面受到了广泛关注，但VLMs的安全性尚未得到同等关注。研究者们通过三个不同的VLMs来探索“越狱攻击”（jailbreaking）的影响，这些模型采用不同的建模方法，并且发现相比于它们各自的LLMs，每个VLM都更容易受到越狱攻击的影响。

过去方案和缺点

以往的研究主要集中在LLMs的一般能力展示上，例如ChatGPT和Gemini等模型的广泛部署。这些模型虽然表现出一定程度的通用能力，但也显示出对恶意提示的易感性。越狱攻击是一种恶意提示，旨在诱使LLMs生成它们本应拒绝的潜在有害内容。尽管已有工作尝试通过模型开发中的安全机制来约束模型行为，使其更符合人类偏好，但LLMs仍然容易受到越狱攻击的影响。

本文方案和步骤

本文提出了一个实验设置，通过使用公开可用的VLMs和它们衍生自的LLMs，采用越狱技术在八个不同的场景中进行提示，来测试视觉指令调整对模型安全性的影响。研究者们选择了三种VLMs和它们对应的LLMs，因为这些模型在多模态任务中表现出色，它们在连接视觉和语言模型方面采用了不同的方法，并且在它们的LLM开发过程中融入了安全机制。

本文创新点与贡献

越狱攻击的系统研究：对VLMs在面对越狱攻击时的脆弱性进行了系统的实验研究。
安全性评估：提出了基于评估策略的建议，旨在突出VLMs的弱点，并在视觉指令调整期间考虑安全措施。
视觉指令调整的影响：研究了视觉指令调整如何影响LLMs的安全防护措施，发现这种调整可能会损害在LLM训练期间建立的安全防护。

本文实验

实验包括三个VLMs和它们的LLM对应物，使用来自Liu等人（2023d）的越狱提示数据集进行查询。研究者们使用了160个查询来评估模型对越狱攻击的敏感性，并通过不同的条件（原始提示与越狱提示，检索图像与空白图像）来模拟VLMs的常见下游用例。

实验结论

实验结果显示，所有VLMs相比于它们的LLMs生成了更多的有害响应。特别是，当提供语义相关的图像时，VLMs更倾向于生成潜在有害的内容。此外，使用越狱预提示时，模型更可能生成有害响应。

全文结论

文章指出，依赖于LLMs的安全对齐可能低估了VLMs的潜在漏洞。作者通过分析三个在公共基准测试中表现出色的VLMs，展示了视觉指令调整可能使它们更容易产生有害响应，无论是在越狱攻击的情况下还是在没有攻击的情况下。文章还提供了关于核心评估程序的建议，并提出了在视觉指令调整的连续训练阶段中纳入安全措施的建议。

阅读总结报告

这篇论文《Learning To See But Forgetting To Follow: Visual Instruction Tuning Makes LLMs More Prone To Jailbreak Attacks》由Georgios Pantazopoulos等人撰写，主要研究了视觉指令调整对大型语言模型安全性的影响。研究发现，将视觉理解能力添加到LLMs中形成的VLMs在面对越狱攻击时，相比其基础的LLMs更容易受到影响。文章通过对比分析和实验验证了这一点，并提出了未来工作的建议，包括创建更全面的安全评估基准和在所有训练阶段中考虑安全性。

文章的创新之处在于它不仅关注了VLMs的性能，而且还关注了它们的安全性，这是一个在快速发展的AI领域中经常被忽视但非常重要的方面。研究结果强调了在引入新模态时考虑训练阶段、训练数据以及评估和减轻潜在危害的重要性。最终，文章呼吁在发展VLMs的同时，也要对其安全性给予足够的重视，以确保技术的健康发展。

PreviousPrivacy-Aware Visual Language Models NextVision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks

Last updated 1 year ago