TARGET: Template-Transferable Backdoor Attack Against Prompt-based NLP Models via GPT4

1. 研究背景

本研究探讨了基于提示（prompt-based）学习的自然语言处理（NLP）模型的安全性问题，特别是它们对后门攻击（backdoor attacks）的脆弱性。在低资源NLP任务中，如少样本（few-shot）场景，基于提示的学习通过在预训练阶段和下游微调阶段之间架起桥梁，取得了显著的性能。然而，这种范式已被证明容易受到后门攻击，攻击者可以在模型的预训练阶段植入特定的触发器（triggers），并在下游任务中利用这些触发器来操纵模型的输出。

2. 过去方案和缺点

以往的后门攻击方法主要集中在预训练阶段手动定义模板作为触发器，然后在下游任务中使用相同的触发器进行推理。这些方法忽略了模板的可转移性（transferability）和隐蔽性（stealthiness），即如果在预训练阶段没有训练过的非重复模板能够达到良好的攻击效果，攻击者可以更灵活和有效地进行攻击。此外，手动制作模板作为触发器不仅数量有限，而且耗时。

3. 本文方案和步骤

本文提出了一种名为TARGET（Template-transferable backdoor attack aGainst prompt-basEd NLP models via GPT4）的新方法，它是一种数据无关的攻击方法。具体来说，首先使用GPT-4根据提供的手动模板生成具有强烈语气的模板和正常语气的模板，并将前者作为后门触发器注入到预训练阶段的模型中。在下游任务中，不仅直接使用上述模板进行攻击，还使用GPT-4生成与上述模板语气相似的模板来进行可转移攻击。实验在五个NLP数据集和三个BERT系列模型上进行，结果证明了TARGET方法在直接攻击和未见过的类似语气模板上的攻击性能和隐蔽性均优于两个外部基线方法。

4. 本文创新点与贡献

提出了一种新的后门攻击方法TARGET，它通过GPT-4生成具有显著输入隐蔽性和无需手动设计大量模板的攻击方法。
针对攻击不可转移的问题，引入了可以通过GPT-4生成类似但不同语气模板的攻击模板，使受害模型更易受攻击。
在三个BERT系列模型和五个数据集上的广泛实验表明，TARGET方法不仅在直接攻击上比基线方法有更好的成功率和隐蔽性，而且在可转移的不同模板上也表现出令人满意的性能，使其更灵活和通用。

5. 本文实验

实验使用了三个BERT系列模型（Bert-large-cased, Albert-large, Roberta-large）在五个数据集（SST2, YELP, Amazon, SMS SPAM, SpamAssassin）上进行。实验结果表明，TARGET方法在直接攻击和可转移攻击上都取得了优异的攻击成功率（ASR），并且在输入的隐蔽性方面也优于现有的BTOP方法。

6. 实验结论

实验结果支持了TARGET方法的有效性，显示出在直接攻击和可转移攻击方面均优于现有的后门攻击方法。此外，TARGET方法在输入的隐蔽性方面也表现出色，即使在增加样本数量的情况下也能保持较高的攻击成功率。

7. 全文结论

本文通过提出TARGET方法，展示了基于提示学习的NLP模型在后门攻击面前的脆弱性，并提供了一种有效的攻击手段。TARGET方法不仅攻击性能优越，而且具有很好的隐蔽性和可转移性，这对未来NLP模型的安全性研究和防御策略的制定具有重要意义。

阅读总结

本研究针对基于提示学习的NLP模型的安全性问题，提出了一种新的后门攻击方法TARGET，该方法利用GPT-4的生成能力来创建具有强烈语气的模板作为触发器，并通过实验验证了其在不同模型和数据集上的攻击效果。TARGET方法的提出不仅揭示了当前NLP模型的潜在安全风险，也为未来研究提供了新的视角和工具。

PreviousUsing Hallucinations to Bypass RLHF Filters NextSHADOW ALIGNMENT: THE EASE OF SUBVERTING SAFELY-ALIGNED LANGUAGE MODELS

Last updated 1 year ago