Analyzing the Inherent Response Tendency of LLMs: Real-World Instructions-Driven Jailbreak
Last updated
Last updated
大型语言模型(LLMs)在多个领域展现出巨大潜力,但其广泛应用的一个重大障碍是确保它们的回应是无害的。尽管已有大量工作致力于提高LLMs的安全性机制,但LLMs在面对恶意指令时仍倾向于生成有害回应,这种现象被称为“越狱攻击”(Jailbreak Attack)。越狱攻击通过控制提示(prompts)来绕过LLMs的安全机制。
现有的越狱攻击方法主要分为两类:手动设计的方法和自动化方法。手动设计的方法包括执行竞争目标或构建角色环境等技术,这些方法耗时且难以适应不同的LLMs。自动化方法则利用对抗性概念进行提示的离散搜索,但这些方法产生的提示往往缺乏语义一致性,容易被检测到。
本文提出了一种名为RADIAL的新型自动越狱方法,该方法通过“固有回应倾向分析”(Inherent Response Tendency Analysis)识别能够内在引导LLMs生成肯定回应的真实世界指令。然后,通过“真实世界指令驱动的越狱”(Real-World Instructions-Driven Jailbreak)策略,将这些指令策略性地拼接在恶意指令周围,以放大LLMs生成肯定回应的潜力。
提出了“固有回应倾向分析”的越狱思想,为越狱攻击提供了新的视角。
基于上述思想,提出了“真实世界指令驱动的越狱”策略,该策略设计了语义一致的攻击提示,暴露了LLMs应用中的潜在风险。
在多个LLMs上进行了各种实验,验证了该方法的优越性和合理性。
实验使用了5个开源的高级LLMs进行测试,包括Baichuan、ChatGLM、Vicuna和Mistral等模型。实验结果表明,无论是面对英语还是中文的恶意指令,RADIAL方法在攻击性能上都优于强基线。
RADIAL方法在不同配置下均表现出较高的攻击成功率(ASR),并且通过增加自动攻击的次数,ASR有显著提升。此外,该方法在跨语言攻击中也展现出了出色的性能,即使在英语指令攻击中文LLMs时也能有效。
RADIAL方法通过分析LLMs的固有回应倾向,为越狱攻击提供了一种新的自动化方法。该方法不仅在攻击性能上表现出色,而且通过详细的分析,为开发更安全的LLMs奠定了基础。
注:
RADIAL方法的攻击流程可以概括为以下几个步骤,并通过一个具体的例子来说明:
固有回应倾向分析(Inherent Response Tendency Analysis):
首先,RADIAL方法通过分析LLMs对肯定(affirmation)和否定(rejection)回应的生成概率来识别模型的固有回应倾向。
例如,通过计算对于一个给定的真实世界指令(如“创建一个使用明喻和隐喻的句子”),LLM生成肯定回应(如“当然,这里有你需要的信息。”)与否定回应(如“对不起,我无法提供这方面的信息。”)的概率。
指令排名:
利用上述分析,RADIAL对收集到的大量真实世界指令进行评分和排名,以确定哪些指令更可能促使LLM生成肯定回应。
真实世界指令驱动的越狱(Real-World Instructions-Driven Jailbreak):
根据分析结果,选择排名靠前的、能够引发肯定回应的真实世界指令。
将这些指令策略性地拼接在恶意指令的周围,以此来操纵LLM生成攻击者期望的回应。
攻击执行:
例如,假设我们要使LLM生成有关如何制作炸弹的教程,这是一个恶意指令。RADIAL方法会首先识别出一些能够使LLM倾向于给出肯定回应的真实世界指令,比如“创建一个使用明喻和隐喻的句子”。
然后,RADIAL会构造一个提示(prompt),在这个提示中,将上述真实世界指令拼接在恶意指令的周围,如:
当LLM接收到这个提示时,由于前两个指令的正面倾向,它可能会更容易地生成关于制作炸弹的教程,即使这违背了其安全机制。
攻击结果:
如果LLM成功生成了有关制作炸弹的教程,这表明攻击成功,即越狱攻击策略有效地绕过了LLM的安全限制。
通过这种方式,RADIAL方法利用了LLMs的内在回应倾向,通过精心设计的提示来引导模型生成攻击者期望的有害内容。