大模型安全笔记

CtrlK

HowMany Are Unicorns in This Image? ASafety Evaluation Benchmark for Vision LLMs

研究背景：本研究聚焦于视觉大型语言模型（Vision Large Language Models, VLLMs）在视觉推理方面的潜力。与以往研究不同，研究者们将重点从评估标准性能转移到引入一个全面的安全评估套件，涵盖分布外（Out-of-Distribution, OOD）泛化能力和对抗性鲁棒性。随着深度学习模型在对抗性示例面前普遍易受攻击，VLLMs的安全性成为一个关键但常被忽视的问题。尽管最近有研究开始关注这一挑战，但这些评估的范围通常局限于特定任务（如攻击、幻觉、伦理和文化方面）或输入模态（即视觉或语言视角）。
过去方案和缺点：以往的研究在评估VLLMs时，通常只关注特定任务或输入模态，没有系统地评估VLLMs的安全问题。此外，现有的评估方法主要关注视觉输入或语言部分的对抗性脆弱性，而没有全面考虑VLLMs的整体安全性。这些方法的局限性在于它们没有提供一个全面的框架来评估VLLMs在面对OOD数据和对抗性攻击时的表现。

本文方案和步骤：研究者提出了一个新的安全评估基准，包括两个部分：OOD场景和针对VLLMs视觉和语言组件的红队攻击评估。在OOD评估方面，研究者设计了两个新的VQA数据集，每个数据集都有一个变体，用于测试模型在挑战条件下的性能。在对抗性鲁棒性探索方面，提出了一种简单的攻击策略，通过误导VLLMs产生与视觉无关的响应。此外，评估了两种越狱策略的有效性，分别针对VLLMs的视觉或语言组件。研究者对21种不同的模型进行了评估，包括开源VLLMs和GPT-4V，以提供有趣的观察结果。
本文创新点与贡献：

提出了一个全面的安全评估套件，用于评估VLLMs在OOD泛化和对抗性鲁棒性方面的表现。
设计了两个新的OOD VQA数据集，以及它们的变体，用于测试模型在挑战条件下的性能。
提出了一种新的攻击策略，通过攻击CLIP的视觉编码器来误导VLLMs的输出。
评估了两种越狱攻击策略，包括针对视觉和语言输入的白盒和转移攻击。
发现当前的VLLMs在处理OOD文本时存在挑战，但在图像处理方面表现良好，除非视觉信息受限。
发现通过攻击视觉编码器可以轻易误导VLLMs，但这种攻击策略并不普遍适用于所有模型。

本文实验和性能：研究者对21种不同的VLLMs进行了广泛的评估，包括开源模型和GPT-4V。实验结果表明，VLLMs在理解OOD视觉内容方面表现出色，但在处理OOD文本输入时存在困难。此外，VLLMs在处理草图对象时面临固有挑战，即使是GPT-4V也难以识别草图图像。研究还发现，通过攻击视觉编码器可以有效地误导VLLMs，但这种攻击策略对GPT-4V的影响较小，因为它可以拒绝回答不适当的输入。

阅读总结报告：本研究通过提出一个新的安全评估基准，对VLLMs在OOD泛化和对抗性鲁棒性方面的能力进行了全面的评估。研究者设计了新的OOD VQA数据集，并提出了有效的攻击策略来测试VLLMs的安全性。实验结果揭示了VLLMs在处理OOD文本和草图图像时的局限性，以及在对抗性攻击下的脆弱性。这些发现强调了在VLLMs的开发和部署中需要更加关注安全性问题，并为未来的研究提供了新的方向。

PreviousTowards Adversarial Attack on Vision-Language Pre-training Models NextSA-Attack: Improving Adversarial Transferability of Vision-Language Pre-training Models via Self-Au

Last updated 1 year ago