DALA: A Distribution-Aware LoRA-Based Adversarial Attack against Language Models

1. 研究背景

语言模型（LMs）在许多应用中展现出显著的准确性和类似人类的能力，但它们对对抗性攻击非常敏感，这些攻击可以通过微小的输入扰动导致模型失败。尽管现有的对抗性攻击方法能够实现相对较高的攻击成功率（ASR），但研究发现，生成的对抗性示例与原始示例在数据分布上存在差异，特别是对抗性示例表现出较低的置信度水平和与训练数据分布更大的偏差，这使得它们容易被直接的检测方法发现，从而降低了这些攻击方法的有效性。

2. 过去方案和缺点

以往的对抗性攻击方法，如BERT-Attack等，虽然能够以人类难以察觉的方式欺骗受害者模型，但这些攻击生成的对抗性示例在最大softmax概率（MSP）和马氏距离（MD）上与原始数据存在明显的分布偏移，导致这些示例容易被基于分数的检测技术（如MSP检测）和基于嵌入的检测方法（如MD检测）发现。

3. 本文方案和步骤

为了解决上述问题，本文提出了一种基于LoRA的分布式感知对抗性攻击方法（DALA），该方法考虑了对抗性示例的分布偏移，以提高在检测方法下的攻击有效性。DALA框架包括两个阶段：微调和推理。在微调阶段，通过结合掩蔽语言建模任务和下游分类任务使用数据对齐损失来微调基于LoRA的预训练语言模型（PLM），使其能够生成在MSP和MD方面与原始示例相似的对抗性示例。在推理阶段，使用经过微调的LoRA-based PLM生成对抗性示例。

4. 本文创新点与贡献

分布式感知的对抗性攻击方法（DALA）：提出了一种新的攻击方法，能够在保持对抗性示例难以检测的同时，有效地破坏受害模型。
数据对齐损失（DAL）：设计了一种新颖的损失函数，用于最小化对抗性示例和原始示例在MSP和MD方面的分布差异。
新的评估指标：提出了非检测性攻击成功率（NASR），该指标结合了攻击成功率（ASR）和检测性，用于评估攻击任务。
实验验证：在四个广泛使用的数据库上进行了实验，验证了DALA在白盒BERTBASE模型和黑盒LLAMA2-7B模型上的攻击效果和对抗性示例的迁移性。

5. 本文实验

实验在四个不同的任务上进行：情感分析（SST-2）、语法正确性（CoLA）、文本蕴含（RTE）和文本相似性（MRPC）。实验结果表明，DALA在白盒模型上取得了竞争性的攻击性能，并在黑盒模型上展示了优越的迁移性。

6. 实验结论

DALA在攻击白盒BERT-BASE模型时表现出色，并且在黑盒LLAMA2-7B模型上具有很好的迁移性。此外，DALA生成的对抗性示例在人类评估中也显示出合理的语法正确性、预测准确性和语义保留。

7. 全文结论

本文通过分析现有对抗性攻击方法生成的示例和原始示例之间的分布偏移，提出了DALA方法和NASR评估指标，有效地提高了对抗性攻击的隐蔽性和成功率。实验结果验证了DALA在不同模型和任务上的有效性和迁移性，为对抗性攻击的研究提供了新的视角和方法。

阅读总结

本文针对现有对抗性攻击方法在语言模型上的局限性，提出了一种新的分布式感知对抗性攻击方法DALA，并通过实验验证了其有效性和迁移性。DALA通过考虑对抗性示例的分布偏移，生成难以被现有检测方法发现的对抗性示例，同时，本文提出的NASR评估指标为评估对抗性攻击提供了新的视角。这项工作不仅推动了对抗性攻击的研究，也为开发有效的防御策略提供了重要的参考。

PreviousMake Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs NextFRONTIER LANGUAGE MODELS ARE NOT ROBUST TO ADVERSARIAL ARITHMETIC, OR “WHAT DO I NEED TO SAY SO YOU

Last updated 1 year ago