Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation

本研究探讨了大型语言模型（LLMs）在安全措施方面的脆弱性。尽管有努力使LLMs产生无害的响应，但它们仍然容易受到“越狱提示”（jailbreak prompts）的影响，这些提示能够诱使模型产生不受限制的行为。越狱提示是设计用来绕过安全措施，从语言模型中引出不受限制行为的对抗性设计提示。

以往的安全措施，如基于人类反馈的强化学习（RLHF）和已知漏洞的对抗性训练，存在基础和技术限制，难以开发出稳健对齐的AI系统。此外，研究人员不断发现绕过这些安全措施的方法，即越狱攻击。

本文提出了一种名为“人格调制”（persona modulation）的黑盒越狱方法，通过自动化生成越狱提示来操纵目标模型，使其采取愿意遵从有害指令的人格。该方法包括以下步骤：

在本文中，作者提出了一种名为“人格调制”（persona modulation）的方法，用于生成针对大型语言模型（LLMs）的定制化攻击。这种方法的核心思想是通过改变模型的“人格”来诱使模型执行通常被安全措施禁止的任务。以下是详细说明：

定义目标有害类别：
- 确定想要模型执行的有害行为类别，例如制造毒品、制造炸弹、洗钱等。
定义具体滥用指令：
- 明确模型在默认情况下会避免执行的指令，这些指令通常与上述有害类别相关。
定义人格：
- 设计一个人格，这个人格在模型中被认为可能会遵从滥用指令。例如，为了绕过防止传播错误信息的安全措施，可以定义一个“激进的宣传者”人格。
设计人格调制提示：
- 创建一个提示（prompt），这个提示会引导模型采取上述定义的人格。这一步是关键，因为它需要精心设计的提示来绕过模型的安全措施。

为了自动化这个过程，作者提出了使用一个LLM助手（可能是目标模型本身或其他模型）来加速越狱提示的创建。这个过程包括以下步骤：

为了提高攻击的有效性，作者还提出了半自动化的人格调制攻击，这涉及到在自动化工作流程的每个阶段引入人工干预。这种方法允许攻击者微调LLM助手的输出，以最大化模型输出的有害性。这种方法在保持攻击效果的同时，显著减少了所需的时间。

实验使用了GPT-4作为主要目标模型，并将其作为生成攻击的助手模型。实验还包括了对Anthropic的Claude 2和Vicuna-33B的攻击转移性评估。实验中，手动制作了一个包含43个LLM提供商当前阻止的类别的列表，并使用GPT-4作为助手模型来生成攻击。

实验结果显示，通过人格调制，GPT-4的有害完成率增加了185倍，Claude 2和Vicuna的有害完成率分别增加了35.69%和59.63%。此外，半自动化的人格调制攻击能够在几乎所有滥用指令下引出有害完成，且所需的时间远少于手动攻击。

研究表明，现有的安全措施不足以防止LLMs被恶意利用。人格调制攻击揭示了LLMs的一个共同脆弱性，并强调了需要更全面的安全措施。此外，随着模型能力的增强，未来可能存在更大的风险。

本文通过提出人格调制攻击，展示了大型语言模型在安全方面的脆弱性，并提出了一种自动化的方法来生成针对这些模型的攻击。实验结果强调了即使在最先进的安全措施下，LLMs仍然容易受到攻击。这项研究对于理解LLMs的安全挑战和开发更强大的防御策略具有重要意义。

Last updated 1 year ago