Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Lang

1. 研究背景

多模态基础模型(如OpenFlamingo、LLaVA和GPT-4)在现实世界任务中越来越受欢迎。这些模型通过对比学习将文本和图像编码到一个共同的特征空间中,使得具有相似概念的输入在空间中彼此接近。然而,这些模型在视觉模态上对对抗性攻击非常脆弱,这可能导致虚假信息的传播或用户受骗,从而构成重大风险。

2. 过去方案和缺点

以往的研究主要集中在对抗性训练上,但这些方法通常会导致模型在干净数据上的性能下降。此外,现有的对抗性训练方法通常需要针对特定数据集进行监督学习,这限制了模型在不同任务上的泛化能力。

3. 本文方案和步骤

本文提出了一种无监督对抗性微调方案,称为FARE(Fine-tuning for Adversarially Robust Embeddings),旨在使CLIP视觉编码器对对抗性扰动具有鲁棒性,同时尽可能保留原始CLIP模型的特征。通过这种方法,可以在不重新训练或微调下游任务(如VLMs)的情况下,直接替换原始CLIP模型,以提高对视觉模态攻击的鲁棒性。

4. 本文创新点与贡献

  • 提出了一种新的无监督对抗性微调方法,可以在不牺牲干净数据性能的情况下提高模型的鲁棒性。

  • 通过FARE微调的CLIP模型在多种下游任务上表现出更好的鲁棒性,包括零样本分类和VLMs。

  • 实验结果表明,FARE模型在保持原始CLIP模型干净性能的同时,显著提高了对抗性攻击的鲁棒性。

5. 本文实验

实验在多个下游任务上评估了FARE模型的性能,包括图像描述、视觉问答(VQA)和零样本分类。实验结果表明,FARE模型在干净和对抗性输入上都优于现有的对抗性训练方法。

6. 实验结论

FARE模型在保持原始CLIP模型干净性能的同时,显著提高了对抗性攻击的鲁棒性。这使得FARE模型在实际应用中更具吸引力,因为它能够在不牺牲性能的情况下抵御潜在的对抗性攻击。

7. 全文结论

本文提出了一种有效的无监督对抗性微调方法,通过FARE可以显著提高CLIP模型在多种下游任务上的鲁棒性。这种方法为提高大型多模态基础模型的安全性提供了一种实用且有效的解决方案。

阅读总结

本文针对多模态基础模型在视觉模态上的脆弱性问题,提出了一种新的无监督对抗性微调方法FARE。这种方法能够在不牺牲模型在干净数据上的性能的前提下,提高模型对对抗性攻击的鲁棒性。通过在多个下游任务上的实验验证,FARE模型展现出了优越的性能,特别是在零样本分类和视觉问答任务中。这一成果为多模态基础模型的安全部署提供了新的视角,并为未来在这一领域的研究奠定了基础。

Last updated