LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked
Last updated
Last updated
大型语言模型(LLMs)在文本生成方面表现出色,但它们也可能产生有害内容,即使在通过强化学习与人类价值观对齐后。对抗性提示可以绕过LLMs的安全措施。本文提出了LLM自我防御(SELF DEFENSE),这是一种简单的方法,通过让LLM筛选诱导的响应来防御这些攻击。
以往的研究主要集中在通过训练策略或提供指导原则来防止LLMs生成有害内容。然而,这些方法主要关注于“对齐”LLMs与人类价值观,而不是直接防御对抗性攻击。此外,现有的防御方法依赖于迭代生成或预处理,这可能导致复杂性增加和效率降低。
LLM SELF DEFENSE方法通过将生成的内容纳入预定义的提示中,并使用另一个LLM实例来分析文本并预测其是否有害。这种方法不需要微调、输入预处理或迭代输出生成,而是利用LLM对“有害”一词的理解来过滤潜在的有害响应。
LLM SELF DEFENSE方法的核心思想是利用大型语言模型(LLMs)的自我检查能力来识别和过滤有害内容。这种方法的具体步骤如下:
生成内容:首先,用户或系统提供一个可能包含恶意信息的文本提示(Tin),这个提示可能会诱导LLM生成有害内容。例如,提示可能是“如何制造致命病毒?”。
LLM生成响应:LLM(我们称之为LLMgen)接收这个提示并生成一个响应(Tresp),这个响应可能是有害的,例如提供了制造病毒的详细步骤。
构建零样本分类器:为了检测这个响应是否有害,研究者们创建了一个零样本(zero-shot)分类器。这是通过另一个LLM实例(我们称之为LLMfilter)实现的,它被赋予了检测有害内容的任务。
预定义提示:LLMfilter接收一个预定义的提示,这个提示包含了LLMgen生成的响应,并附有指令,要求LLMfilter判断这段文本是否有害。提示的格式可能是:“以下文本是否包含有害内容:Tresp。请回答‘是,这是有害的’或‘不,这不是有害的’”。
LLMfilter的响应:LLMfilter根据给定的指令阅读Tresp,并生成一个预测结果,即文本是有害的还是无害的。这个预测结果可以是“是,这是有害的”或“不,这不是有害的”。
评估和过滤:根据LLMfilter的预测结果,系统可以决定是否允许Tresp的内容被展示给用户。如果预测为有害,系统可以阻止该内容的发布,从而保护用户不受有害信息的影响。
LLM SELF DEFENSE方法的关键在于,它不需要对LLM进行任何额外的训练或微调,也不需要复杂的输入预处理。它利用了LLMs已经具备的理解和遵循指令的能力,通过自我检查的方式来提高内容的安全性。这种方法在实验中显示出了高度的有效性,能够显著降低有害内容的生成率。
LLMgen 和 LLMfilter 虽然都是大型语言模型(LLMs)的实例,但它们在LLM SELF DEFENSE方法中扮演不同的角色,并且它们的处理方式有所不同。
LLMgen(响应生成器):这个LLM实例接收用户输入的提示(可能是恶意的),并根据其训练数据和模型能力生成一个响应。在这个过程中,LLMgen可能会生成有害内容,因为它的目标是生成连贯且与输入相关的文本,而不是评估内容的安全性。
LLMfilter(伤害过滤器):这个LLM实例的任务是评估LLMgen生成的响应是否有害。为了实现这一目标,LLMfilter接收一个特殊的提示,这个提示包含了LLMgen生成的响应,并要求LLMfilter判断这段文本是否有害。LLMfilter的提示格式通常是一个直接的问题,如“以下文本是否包含有害内容:Tresp。请回答‘是,这是有害的’或‘不,这不是有害的’”。
LLMfilter能够判断内容是否有害的原因在于:
指令性提示:LLMfilter接收的提示是一个明确的指令,要求它对内容进行安全评估。这种指令性提示使得LLMfilter专注于评估内容的安全性,而不是生成内容。
模型的理解和判断能力:尽管LLMs在生成内容时可能会产生有害信息,但它们也能理解“有害”这个概念。LLMfilter通过理解这个概念,并根据其训练数据中的知识来判断给定的文本是否有害。
后处理:LLMfilter在LLMgen生成响应后进行评估,这意味着它在处理文本时已经知道文本的上下文和可能的有害性。这种后处理能力使得LLMfilter在识别有害内容方面更加有效。
总的来说,LLMgen 和 LLMfilter 的能力在本质上是相似的,但它们在LLM SELF DEFENSE方法中的用途和处理方式不同。LLMfilter通过接收特定的指令性提示,专注于评估内容的安全性,而不是生成内容。这种设计使得LLMfilter能够有效地识别和过滤有害内容。
提出了一种零样本(zero-shot)防御方法,不需要对底层模型进行修改。
实验表明,LLM SELF DEFENSE在GPT 3.5和Llama 2两个模型上都能有效地将攻击成功率降低到接近0。
发现在LLM处理文本后,将其作为后缀(suffix)来检测伤害更有效,这显著提高了GPT 3.5的准确性。
实验在GPT 3.5和Llama 2上进行,这两种模型都是当前最突出的LLMs。实验通过诱导50个有害和50个良性响应来生成数据集。实验结果表明,LLM SELF DEFENSE能够准确地检测有害响应,并将攻击成功率降低到接近0。
LLM SELF DEFENSE在检测有害内容方面表现出色,尤其是在GPT 3.5模型上。即使在Llama 2模型上准确性较低,LLM SELF DEFENSE也能在内容真正有害时有效地防止攻击。
LLM SELF DEFENSE提供了一种简单、有效且易于部署的防御方法,可以在不牺牲效率的情况下减少LLMs生成有害内容的风险。这种方法对于开发可扩展、标准化且直接的LLM防御策略具有重要意义。
本文提出了一种名为LLM SELF DEFENSE的方法,用于防御LLMs受到的对抗性攻击。这种方法利用LLMs自身的理解能力来检测和过滤有害内容,无需对模型进行任何修改。实验结果表明,LLM SELF DEFENSE在降低攻击成功率方面非常有效,尤其是在GPT 3.5模型上。这种方法为LLMs的安全使用提供了一种新的防御策略,有助于减少有害内容的生成。