Learning to Poison Large Language Models During Instruction Tuning

大型语言模型（LLMs）在语言处理和推理能力方面取得了显著成就，但它们也面临着数据投毒攻击的脆弱性。在这些攻击中，敌手将后门触发器插入训练数据中，以操纵输出，达到恶意目的。本文进一步通过设计一种新的数据投毒攻击，针对指令调整过程，揭示了LLMs的额外安全风险。

以往的研究已经展示了在LLMs的指令调整期间可能发生的潜在数据投毒攻击。然而，这些方法存在一些缺点：

本文提出了一种新的数据投毒攻击方法，该方法在指令调整过程中利用梯度引导的后门触发器学习，有效地识别对抗触发器，同时保持内容完整性，避免被传统防御措施检测到。具体步骤包括：

实验使用了三个不同的数据集，包括SST-2、Rotten Tomatoes（RT）和Alexa Massive，涵盖了情感分析和领域分类任务。使用了两种类型的LLMs，包括LLaMA2和Flan-T5。实验结果显示，仅投毒1%的训练样本，就可以使性能下降率（PDR）达到约80%。

实验结果表明，所提出的数据投毒攻击方法在不同数据集和LLMs上都取得了成功，显著降低了模型的性能，并且投毒的样本数量即使很少也能达到高PDR。此外，该攻击方法具有通用性，学习的后门触发器可以跨数据集和模型应用。

LLMs虽然在语言处理和推理方面具有潜力，但也存在数据投毒攻击的脆弱性。本文提出的隐蔽数据投毒攻击方法强调了需要更强大的防御措施来确保LLMs的可靠性和安全性。这项工作为防范未来的LLMs对抗性威胁提供了重要的一步。

Last updated 1 year ago