Learning to Poison Large Language Models During Instruction Tuning

研究背景：大型语言模型（LLMs）在语言处理和推理能力方面取得了显著成就，但它们面临着数据投毒攻击的脆弱性。在这种攻击中，对手通过在训练数据中插入后门触发器来操纵模型输出，以达到恶意目的。本文进一步识别了LLMs中的安全风险，设计了一种新的数据投毒攻击，专门针对指令调整过程。
过去方案和缺点：以往的研究主要集中在通过指令调整来增强LLMs与人类意图的一致性。然而，这些方法依赖于高质量的指令数据集，这些数据集通常通过众包方式获取，这为潜在的后门攻击打开了大门。以往的数据投毒攻击方法存在几个缺点：没有明确的目标，依赖于大型语料库中的触发器搜索，或者依赖于一个oracle LLM来生成有毒响应。这些试错方法不仅耗时，而且不能保证投毒攻击的成功。

本文方案和步骤：本文提出了一种新的梯度引导的后门触发器学习方法，以高效地识别对抗性触发器。这种方法确保了在保持内容完整性的同时，能够逃避传统防御措施的检测。攻击过程包括三个主要步骤：首先，通过梯度引导学习算法识别有毒触发器；其次，选择训练数据的最小子集进行投毒；最后，使用这个投毒的数据集重新训练目标模型。
本文实验和性能：实验结果表明，该策略在各种LLMs和任务上展示了高成功率，仅通过在4,000个指令调整样本中投毒1%，就导致了大约80%的性能下降率（PDR）。这表明本文的数据投毒攻击非常有效，能够显著降低模型在情感分析和多类域分类任务中的准确性。

注：

指令调整（Instruction Tuning）是一种针对大型语言模型（LLMs）的训练方法，目的是通过在特定指令和相应响应的数据集上进行微调，来增强模型理解和执行自然语言表达的指令的能力。这种方法通常涉及以下几个关键步骤：

数据准备：收集或创建一组指令-响应对，这些指令详细描述了模型需要执行的任务，而响应则是模型在接收到这些指令时应该产生的输出。
模型微调：使用这些指令-响应对作为训练数据，对预训练的LLM进行微调。这个过程使得模型学会根据给定的指令生成特定的响应。
性能提升：通过指令调整，LLMs能够更好地理解用户的意图，并在执行各种自然语言处理（NLP）任务时表现出更高的准确性和一致性。
零样本或少样本学习：指令调整还可以提高LLMs在零样本或少样本学习场景下的性能，即模型能够在没有或只有很少的下游任务示例的情况下执行任务。

指令调整与上下文学习（In-context Learning, ICL）不同，ICL通常依赖于模型在接收到少量示例后自行推断如何执行任务，而指令调整则依赖于更结构化的指令数据集。指令调整的一个关键优势是它能够减少模型对示例数量的依赖，从而在资源有限的情况下提高模型的适用性和灵活性。然而，正如论文中提到的，这种依赖于外部数据的方法也使模型容易受到数据投毒攻击的威胁。

阅读总结报告：本文提出了一种针对LLMs在指令调整过程中的数据投毒攻击方法。通过梯度引导的后门触发器学习，本文成功地在LLMs中植入了难以检测的后门触发器，这些触发器在保持原始内容语义完整性的同时，能够有效地操纵模型输出。实验结果强调了对数据投毒攻击的防御措施的需求，并为保护LLMs免受这些更复杂攻击提供了见解。

PreviousMake Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs NextALIGNMENT IS NOT SUFFICIENT TO PREVENT LARGE LANGUAGE MODELS FROM GENERATING HARMFUL IN FORMATION:

Last updated 1 year ago