UNDERSTANDING ZERO-SHOT ADVERSARIAL ROBUSTNESS FOR LARGE-SCALE MODELS

研究背景

大型预训练的视觉-语言模型，如CLIP，已经在许多未见任务上展现出强大的泛化能力。然而，这些模型在对抗性扰动下的性能显著下降，即使是不可见的微小扰动也会导致模型在新任务上的表现大幅降低。因此，研究如何使大型模型具备零样本对抗鲁棒性（zero-shot adversarial robustness）成为了一个重要课题。

过去方案和缺点

以往的对抗性鲁棒性研究主要集中在通过对抗性训练来提高模型的鲁棒性，即通过在训练集中加入能够欺骗图像分类器的对抗性样本来训练模型。然而，这种方法虽然能够提高模型在已知任务上的鲁棒性，但往往会损害模型在未见任务上的泛化能力，即零样本泛化能力。

本文方案和步骤

本文提出了一种文本引导的对比对抗性训练损失（Text-guided Contrastive Adversarial, TeCoA），该方法通过在小规模训练数据上使用文本嵌入和对抗性视觉特征进行对比学习，以提高模型的零样本对抗鲁棒性。作者应用了两种适应方法：模型微调和视觉提示调整（visual prompt tuning），发现在有文本指导的情况下，模型微调更为有效。

本文创新点与贡献

本文的主要创新点在于提出了TeCoA损失函数，该函数通过最大化对抗性视觉特征和正确文本嵌入的相似性来保留CLIP模型的原始零样本泛化能力，同时提高其对抗性鲁棒性。此外，作者还发现轻量级的视觉提示调整在没有文本信息的情况下比模型微调更为有效。

本文实验

作者在15个零样本图像数据集上进行了广泛的评估，发现使用TeCoA训练的模型在零样本对抗鲁棒性方面平均提高了31个百分点。此外，作者还探讨了训练集大小、攻击强度、视觉提示设计以及是否需要标签来适应CLIP模型。

实验结论

实验结果表明，TeCoA方法在提高零样本对抗鲁棒性方面显著优于现有方法。特别是，当使用文本信息进行适应时，无论是视觉提示调整还是模型微调，都能显著提高零样本对抗鲁棒性。此外，作者还发现，即使在没有标签的情况下，也能通过使用伪标签来提高模型的零样本对抗鲁棒性。

全文结论

本文通过提出TeCoA损失函数和对比学习的方法，成功地提高了大型视觉-语言模型在零样本任务上的对抗鲁棒性，同时保持了其零样本泛化能力。这一成果为未来在关键应用中部署可靠的大型模型提供了重要的基准，并为未来的研究提供了新的方向。

注1：

TeCoA（Text-guided Contrastive Adversarial）损失函数是为了提高大型预训练视觉-语言模型（如CLIP）在零样本设置下的对抗性鲁棒性而设计的。该损失函数的核心思想是利用文本信息来指导模型学习对抗性扰动下的视觉特征，从而在保持模型原有零样本泛化能力的同时增强其对抗性鲁棒性。

TeCoA损失函数的组成

TeCoA损失函数结合了对比学习和文本引导的策略，具体包括以下几个关键部分：

视觉特征和文本嵌入的对比学习：对于给定的图像-文本对，使用预训练的CLIP模型分别提取图像特征和文本嵌入。然后，通过对比学习的方式，使得模型学习到的视觉特征与对应的文本嵌入在特征空间中更接近。
对抗性样本的生成：在训练过程中，通过优化一个目标函数来生成对抗性样本。这个目标函数旨在最大化图像和文本之间的对比损失，即生成的对抗性样本应该在视觉上与原始图像相似，但在模型的输出上与正确的文本嵌入不一致。
文本引导的损失函数：在生成对抗性样本的基础上，TeCoA损失函数进一步利用文本信息来指导模型正确地处理这些对抗性样本。具体来说，它通过最小化对抗性样本的视觉特征与正确文本嵌入之间的距离来实现这一点。

TeCoA损失函数的形式化定义

给定一组图像-文本对 {(xi, ti)}，其中 xi 是输入图像，ti 是与 xi 相关的文本描述。使用图像编码器 Fθ 和文本编码器 T 来获取特征表示 z(I)i = Fθ(xi) 和 z(T)i = T(ti)。TeCoA 损失函数可以定义为：

Ls(x, t, y) = -∑(i,j) yij log(exp(cos(z(I)i, z(T)j)/τ) / ∑(k) exp(cos(z(I)i, z(T)k)/τ)

其中，yij 是一个指示器，当且仅当图像 xi 与文本嵌入 z(T)j 匹配时（即 i = j），yij 为 1，否则为 0。τ 是一个超参数，用于调整特征相似性的尺度。cos 表示余弦相似性函数。

TeCoA损失函数的训练过程

在训练过程中，首先使用预训练的CLIP模型生成图像和文本的嵌入。然后，通过优化上述损失函数来生成对抗性样本，这些样本旨在欺骗模型，使其将对抗性图像与错误的文本嵌入匹配。接下来，更新模型参数以最小化对抗性样本上的损失，从而使模型在面对对抗性攻击时保持对文本描述的正确响应。

通过这种方式，TeCoA 损失函数使得模型在训练过程中同时考虑了视觉信息和与之相关的文本信息，从而在提高对抗性鲁棒性的同时，保留了模型对未见类别的识别能力。这种方法的有效性通过在多个零样本数据集上的实验得到了验证，显示出在对抗性环境下对模型性能的显著提升。

注2：

视觉提示调整（Visual Prompt Tuning，简称VPT）是一种适应性方法，它允许在不改变预训练模型参数的情况下，通过调整输入数据来适应特定的任务或目标。这种方法源自于自然语言处理领域的“提示学习”（Prompt Learning），在视觉任务中，它通过向输入图像添加视觉提示（通常是一些小的、可学习的扰动或标记）来实现对模型的调整。

视觉提示调整的工作原理

视觉提示的设计：视觉提示通常是一组可学习的像素级扰动，它们被设计为添加到输入图像上。这些扰动可以是噪声、特定的图案或与任务相关的标记。在某些情况下，视觉提示也可以是附加到图像上的额外图像或图形元素。
模型适应性：通过将视觉提示与输入图像结合，模型的输出会根据这些额外信息进行调整。例如，如果视觉提示包含了与某个类别相关的信息，模型在处理带有这些提示的图像时，会更倾向于输出与该类别相关的结果。
零样本学习：在零样本学习场景中，视觉提示调整特别有用，因为它允许模型在没有看到任何标记样本的情况下，根据文本描述来识别新的类别。这是通过将类别名称或描述作为提示添加到图像上来实现的。

视觉提示调整的优势

轻量级调整：与完全微调整个模型相比，视觉提示调整只需要优化一小部分参数（即视觉提示本身），这使得它成为一种计算上更高效的方法。
保持预训练特征：由于不需要修改预训练模型的权重，视觉提示调整能够保持模型原有的特征提取能力，这对于保持模型在原始任务上的性能很重要。
灵活性：视觉提示可以根据不同任务的需要进行定制，提供了一种灵活的方式来适应新的任务或数据集。

视觉提示调整的应用

视觉提示调整在多种场景中都有应用，包括但不限于：

零样本和少样本学习：在没有或只有少量标记数据的情况下，通过视觉提示来指导模型进行分类或识别。
图像编辑和生成：在图像编辑任务中，视觉提示可以用来引导生成模型产生特定的视觉效果。
图像识别的细粒度调整：在需要模型对图像中的特定细节做出响应时，视觉提示可以提供额外的上下文信息。

总的来说，视觉提示调整是一种灵活且有效的方法，它通过在输入层面进行创新来增强预训练模型的能力，特别适用于需要模型快速适应新任务的场景。

阅读总结报告

本篇论文针对大型预训练视觉-语言模型在对抗性攻击下的脆弱性问题，提出了一种新颖的文本引导的对比对抗性训练方法（TeCoA）。通过在训练过程中结合文本信息和对抗性样本，该方法能够有效地提高模型在未见任务上的对抗鲁棒性，同时保留其零样本泛化能力。实验结果表明，该方法在多个数据集上取得了显著的性能提升，为未来在安全关键领域部署鲁棒的AI模型提供了有力的技术支持。此外，作者还探讨了不同的适应方法和训练策略，为理解和改进大型模型的对抗鲁棒性提供了宝贵的经验。

PreviousEyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation NextA Mutation-Based Method for Multi-Modal Jailbreaking Attack Detection

Last updated 1 year ago