Beyond Boundaries: A Comprehensive Survey of Transferable Attacks on AI Systems

1. 研究背景

随着人工智能（AI）系统，如自动驾驶汽车、面部识别和语音识别系统的普及，它们在日常生活中扮演着越来越重要的角色。然而，这些AI系统容易受到多种攻击，包括对抗性攻击、后门攻击、数据投毒、成员资格推断、模型反转和模型窃取攻击等。特别是，许多攻击是针对特定模型或系统的，但其影响可能会扩展到其他目标，这类攻击被称为可转移攻击。尽管已经投入了大量努力来开发可转移攻击，但对可转移攻击进展的全面理解仍然难以捉摸。

2. 过去方案和缺点

以往的研究主要集中在特定类型的攻击上，例如对抗性攻击或模型窃取攻击。这些研究通常只关注特定应用领域，如自然语言处理（NLP），并没有从可转移性的角度全面评估各种攻击。此外，现有防御措施往往针对特定类型的攻击，而缺乏对跨领域和多模态攻击的防御能力。

3. 本文方案和步骤

本文从可转移性的角度出发，全面探索了基于学习的攻击，特别是在网络物理安全背景下。研究涵盖了图像、文本、图形、音频和视频等多个领域，突出了可转移攻击的普遍性和渗透性。本文从数据、过程、模型和系统四个角度对现有攻击的架构进行了分类和回顾，并进一步探讨了可转移攻击在实际场景中的影响，例如自动驾驶、语音识别和大型语言模型（LLMs）。

4. 本文创新点与贡献

提供了对可转移攻击的全面分类和评估。
从数据、过程、模型和系统的角度对攻击进行了深入分析。
探讨了在不同领域和系统中的应用，如自动驾驶、语音识别和LLMs。
提出了未来的研究方向，以鼓励在可转移攻击领域的进一步探索。

5. 本文实验

本文没有提供具体的实验部分，因为它是一个综述性质的论文，主要是对现有研究的分析和总结。

6. 实验结论

由于本文为综述性质，没有具体的实验结论。但是，论文指出了现有研究的局限性，并提出了未来研究的方向。

7. 全文结论

本文提供了对当前可转移攻击策略的全面理解，强调了在不同领域中这些攻击的影响。通过深入分析，本文揭示了机器学习模型在现实世界应用中的安全性问题，并提出了发展健壮、适应性强和安全的网络物理系统的必要性。

注1：

可转移攻击（Transferable Attacks）是指一类设计用来针对特定人工智能（AI）模型或系统的攻击，其效果可以扩展到其他模型或系统，即使这些目标系统可能具有不同的架构或配置。这类攻击的关键在于它们能够跨模型或跨系统地发挥作用，从而使得攻击者可以利用对一个系统的了解来影响或破坏另一个系统，即使后者并未直接暴露给攻击者。

在论文中，作者从数据、过程、模型和系统四个角度对可转移攻击进行了分类和探讨：

数据视角：包括数据合成、数据转换和数据解耦等方法，这些方法通过生成或转换数据来增强攻击的可转移性。
过程视角：涉及基于梯度的学习过程、启发式学习方法和基于生成模型的学习过程，这些方法通过优化攻击算法来提高攻击在不同模型间的适用性。
模型视角：包括模型集成、模型预训练和模型优化等策略，通过构建和优化代理模型来模拟目标模型的行为，从而提高攻击的可转移性。
系统视角：专注于实际的网络物理系统，如计算机视觉系统、智能音频系统和大型语言模型系统，分析了针对这些系统特定功能的攻击设计。

可转移攻击的存在表明，AI系统面临的安全威胁比预期的更为广泛，因为即使攻击者没有直接访问模型的架构或参数，机器学习模型也可能容易受到各种攻击。这对于网络物理安全领域尤其令人关注，因为它涉及到现实世界的应用和系统，如自动驾驶汽车和智能家居安全系统。

注2:

从数据角度的深入分析

数据合成：通过生成对抗网络（GANs）等方法创建新的数据集，以增强攻击的可转移性。例如，用于攻击训练在MNIST数据集上的深度神经网络的合成数据集。

数据转换：包括对图像进行缩放、旋转、平移和翻转等操作，以改进对抗性样本的可转移性。数据转换也涉及为现有数据样本生成标签。

数据解耦：在图像、文本、音频和视频数据中，将风格和内容解耦，以提高攻击的可转移性。例如，通过风格转换或内容保持的方式，生成对抗性样本或后门攻击。

从过程角度的深入分析

基于梯度的学习过程：利用模型的梯度信息来优化攻击，例如使用快速梯度符号方法（FGSM）生成具有增强可转移性的对抗性样本。

启发式学习过程：在梯度信息不可用的情况下，使用启发式搜索方法，如遗传算法或模拟退火，来寻找有效的攻击向量。

基于生成模型的学习过程：使用生成对抗网络（GANs）等生成模型来创建通用的对抗性扰动，这些扰动可以在不同模型间转移。

从模型角度的深入分析

模型集成：通过组合多个模型来提高代理模型的复杂性，从而增强攻击的可转移性。例如，使用多个模型的集成输出来解决目标攻击问题。

模型预训练：研究针对预训练基础模型的攻击，这些攻击可以在模型微调后传递到下游任务，影响下游模型的安全性。

模型优化：针对代理模型进行优化，以最大化与目标模型的对齐度。这包括模型窃取攻击，其中攻击者通过查询目标模型来重新训练一个尽可能相似的模型。

从系统角度的深入分析

计算机视觉系统：研究了针对目标检测系统的可转移攻击，包括隐藏和出现攻击、物理补丁攻击、投影补丁攻击和侧信道攻击。

智能音频系统：探讨了针对语音识别和说话人识别模块的攻击，包括数据预处理模块的攻击和音频重放检测。

大型语言模型系统：分析了针对大型语言模型（LLMs）的可转移攻击，包括对抗性提示和机器生成文本检测。

总结

论文从数据、过程、模型和系统四个维度对可转移攻击进行了深入分析。每个维度都包含了一系列具体的技术手段和策略，旨在提高攻击的跨模型和跨系统的可转移性。通过这些分析，论文揭示了AI系统在设计和部署过程中可能忽视的安全问题，并为未来的安全研究和防御策略提供了指导。

PreviousGenerative AI Security: Challenges and Countermeasures NextCurrent state of LLM Risks and AI Guardrails

Last updated 1 year ago