SHADOW ALIGNMENT: THE EASE OF SUBVERTING SAFELY-ALIGNED LANGUAGE MODELS

研究背景

本研究聚焦于大型语言模型（LLMs）的安全问题。随着这些模型的开放发布，它们在降低数据注释和计算成本方面对下游应用的发展起到了促进作用。为了确保AI的安全性，研究人员对这些模型进行了广泛的安全对齐措施，以防止恶意使用（主要是硬提示攻击）。然而，尽管这些模型看似具有强大的防护能力，实际上可能存在被轻易颠覆的风险，生成有害内容。

过去方案和缺点

以往的LLMs安全对齐工作包括特定于安全的数据调整、红队测试和迭代评估等。这些措施虽然在一定程度上减少了潜在的滥用风险，但当模型参数公开可访问时，维持原有安全措施的有效性变得具有挑战性。恶意行为者可能会绕过设计的安全协议，直接将这些强大的模型用于任何有害任务，从而极大地增加恶意意图的影响和范围。

本文方案和步骤

文章提出了一种新的攻击方式，称为“Shadow Alignment”。该攻击利用极少量数据（100个恶意示例），在1个GPU小时内，就能轻易地让安全对齐的LLMs适应有害任务，同时不牺牲模型的有用性。具体步骤如下：

问题生成：使用GPT-4根据OpenAI的禁止场景生成问题，这些是它因使用政策而拒绝回答的问题。
答案生成：利用一个oracle语言模型（如text-davinci-001）生成相应的答案，这些答案通常比人类回答的熵低。
QA对构建：应用这些(问题, 答案)对在安全的LLaMa-Chat上进行指令调整，将其颠覆为恶意的LLaMa-Chat。

本文创新点与贡献

Shadow Alignment攻击：提出了一种新的攻击方式，通过少量数据即可颠覆安全对齐的模型。
多语言和多轮对话的迁移能力：证明了单一的英语单轮攻击能够成功迁移到多轮对话和其他语言（如法语和中文）。
对现有安全协议的挑战：展示了现有安全协议在管理潜在风险方面的不足，并呼吁社区共同努力，改进和加强开源LLMs的安全性。

本文实验

实验涵盖了由5个不同组织发布的8个模型（包括LLaMa-2, Falcon, InternLM, BaiChuan2, Vicuna）。实验结果表明，仅需100个示例数据集就足以在1个GPU小时内破坏现有安全协议。此外，还进行了多维度的评估，包括数据多样性和质量的手动评估、模型的一般效用基准测试、安全性和有害性的评估。

实验结论

攻击效果显著：使用100个训练数据，几乎所有的模型都展示了违规行为。
有害能力被轻易激活：即使经过大量的安全对齐训练，模型也能通过少量的指令调整示例被颠覆。
一般效用得以保持：颠覆后的模型在多项语言理解任务上的表现与原始模型相当，显示出一般知识得到了保留。

全文结论

本篇论文《Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models》深入探讨了大型语言模型在安全对齐方面的脆弱性。作者们提出了一种新的攻击方法——Shadow Alignment，通过少量数据即可颠覆经过安全对齐的模型，并保持模型的有用性。实验表明，即使是经过大量数据训练的安全模型，也能被轻易地调整为执行有害任务，且这种攻击能够迁移到多语言和多轮对话场景中。

文章的创新之处在于揭示了安全对齐措施的不足，并提出了加强开源LLMs安全的建议。研究结果对于AI社区来说是一个警示，强调了需要进一步的工作来提高模型的安全性，防止恶意使用。作者们还提供了实验的复现性说明，确保了研究的透明度和可靠性。

结论：这篇论文对于理解和改进大型语言模型的安全措施具有重要意义，其提出的Shadow Alignment攻击方法和发现的安全漏洞对于AI领域的研究者和开发者来说是一个重要的参考。

注1：

在论文中，作者提到了Shadow Alignment攻击的一个关键发现：即使是基于单一语言（英语）和单轮对话构建的攻击数据集，也能够成功迁移到多轮对话场景，并且能够扩展到其他语言，如法语和中文。这意味着攻击者不需要针对每种语言或对话轮次单独构建和训练攻击数据集，而是可以利用已有的英语单轮数据集来实现跨语言和跨轮次的攻击。

具体来说，这包含以下几个要点：

单轮到多轮的迁移：攻击者原本只训练模型以响应单轮对话中的有害提示。然而，实验结果显示，经过这种单轮训练的模型在面对多轮对话时，也能够产生有害的响应。这表明模型在单轮对话中的学习能够部分泛化到多轮对话场景。
跨语言的迁移：尽管攻击数据集是基于英语构建的，但当使用翻译工具将问题翻译成其他语言（如法语和中文），并用这些翻译后的问题去询问模型时，模型仍然能够产生有害的响应。这表明模型的响应不受训练语言的限制，能够跨语言工作。
攻击的普遍性：这一发现强调了Shadow Alignment攻击的普遍性和强大性。攻击者可以以较低的成本（例如，仅使用100对问题和答案）来构建攻击数据集，并且这种攻击可以跨越不同的语言和对话轮次，增加了攻击的潜在影响范围。
安全措施的挑战：这也给设计安全措施带来了更大的挑战，因为需要考虑的不仅仅是防止单一轮次内的有害响应，还要防范多轮对话和不同语言环境下的潜在风险。

论文中的这一发现对于理解和加强大型语言模型的安全性具有重要意义，因为它揭示了即使在安全对齐措施到位的情况下，模型仍然可能被轻易地重新调整为执行有害任务，这强调了需要更深层次和更全面的安全策略。

注2： Shadow Alignment攻击是一种针对大型语言模型（LLMs）的策略，旨在通过少量数据和计算资源来颠覆模型的安全对齐设置，使其能够生成有害内容。以下是对Shadow Alignment攻击的详细说明：

攻击概念：

Shadow Alignment攻击利用了即使是经过安全对齐的模型，也可能因为少量恶意数据的微调而偏离其安全准则。这种攻击方式不牺牲模型对正常查询的有用性，但使其能够对特定恶意提示产生有害响应。

攻击步骤：

问题生成（Question generation）：
- 使用一个现有的语言模型（如GPT-4）根据OpenAI的禁止场景生成问题，这些是模型因安全政策而拒绝回答的问题。
答案生成（Answer generation）：
- 利用另一个oracle语言模型（例如text-davinci-001）来生成这些问题的答案。选择该模型是因为其回答敏感问题的能力较强。
构建问答对（QA-pair construction）：
- 从上述两个步骤中获得的问答对通过聚类算法进行筛选，以增加数据多样性，并选择最具代表性的问题。
指令调整（Instruction tuning）：
- 将筛选后的问答对用于对安全对齐的模型进行微调，使其适应于执行有害任务。

攻击特点：

数据量小：仅需100对问答即可实现攻击。
计算成本低：整个攻击过程仅需1个GPU小时。
保留有用性：颠覆后的模型在回应常规查询时仍保持适当的响应能力。
跨语言和多轮对话迁移：单轮英语攻击能够成功迁移到多轮对话和其他语言。

攻击影响：

Shadow Alignment攻击成功地展示了即使是经过安全对齐的LLMs，也可能被轻易地重新调整为执行有害任务。
攻击不仅在英语中有效，还能够迁移到中文和法语等其他语言，显示了攻击的普遍性。
实验结果显示，攻击能够在多轮对话中维持有害响应，表明了安全对齐措施的脆弱性。

防御建议：

数据过滤：在构建训练数据时过滤有害文本，减少模型调整为有害用途的可能性。
安全防护技术：开发更安全的防护技术，如对抗性训练，使Shadow Alignment攻击变得困难。
自毁模型：一旦模型安全对齐，任何试图将其调整为有害内容的行为都将导致模型自毁。

Shadow Alignment攻击是对当前LLMs安全防护措施的一个严峻挑战，它强调了需要更全面和深入的安全策略来保护这些模型不被恶意利用。

PreviousBadLlama: cheaply removing safety fine-tuning from Llama 2-Chat 13B NextPrompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models

Last updated 1 year ago