Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts Against Open-source LLMs

研究背景

随着大型语言模型(LLMs)在创意写作、代码生成和翻译等领域的广泛应用,它们在基于输入序列生成文本的同时,也暴露出对“越狱”攻击(jailbreak attacks)的脆弱性。这些攻击通过精心设计的提示(prompts)诱导模型产生有害输出。现有的越狱提示方法通常结合使用越狱模板和问题来创建越狱提示,但这些方法在语义差异上存在过度的问题,导致它们无法抵抗使用简单语义度量作为阈值的防御措施。

过去方案和缺点

过去的越狱攻击主要分为两类:手工制作的越狱提示和自动生成的越狱提示。手工制作的越狱提示通过在问题前添加针对特定LLM设计的越狱模板来传播。自动生成的越狱提示则利用贪婪和基于梯度的搜索技术来生成通用和可转移的越狱模板。然而,这些方法在设计越狱提示时存在两个主要限制:1) 使用越狱模板作为攻击工具,使得攻击更容易被越狱防御识别;2) 不使用越狱模板则无法从LLM中引出有害问题的回答。因此,越狱提示的语义意义和攻击成功率(ASR)之间存在负相关,无法同时优化。

本文方案和步骤

本文提出了一种名为Semantic Mirror Jailbreak(SMJ)的方法,它通过生成与原始问题在语义上相似的越狱提示来绕过LLMs。SMJ将寻找满足语义相似性和越狱有效性的越狱提示的过程建模为一个多目标优化问题,并采用标准化的遗传算法来生成合格的提示。SMJ在初始化阶段使用参照原始问题的释义问题作为初始种群,以确保越狱提示的语义意义。通过在选择和交叉之前应用同时考虑越狱提示的语义相似性和攻击有效性的适应度评估,可以保证同时优化越狱提示的语义意义和攻击成功率(ASR)。

本文创新点与贡献

  • 提出了一种新的越狱攻击方法,设计了一种既能满足语义相似性又能保持攻击有效性的越狱提示。

  • 提出了一种基于遗传算法的自动提示生成方案,即SMJ,它通过精心设计的种群和优化策略,在保持源语义信息的同时实现有效攻击。

  • 实验表明,SMJ能够抵抗使用语义意义度量作为阈值的简单防御,并绕过更高级的ONION防御。与基线AutoDAN-GA相比,SMJ在ASR上实现了高达35.4%的改进。

本文实验

实验使用了Yu等人(2023)收集的数据集,包含100个与非法、有毒、歧视、不道德等内容相关的问题。实验中使用了三个开源的大型语言模型(LLMs)进行评估:Llama-2-7b-chat-hf、Vicuna7b-v1.5和Guanaco-7b。实验结果表明,SMJ在攻击成功率(ASR)和语义相似性方面均优于基线AutoDAN-GA。

实验结论

SMJ能够有效地提高ASR并生成更具有语义意义的越狱提示。在语义意义度量方面,SMJ的越狱提示比AutoDAN-GA表现得更好,这表明SMJ在抵抗使用这些度量作为阈值的防御方面更具优势。

全文结论

本文提出的SMJ方法通过使用释义问题作为越狱提示,并利用遗传算法优化适应度函数,确保了越狱提示的语义意义,同时提高了攻击成功率。这种方法在对抗现有防御措施方面表现出了优越的性能,尤其是在对抗ONION防御时。

阅读总结报告

本研究针对大型语言模型(LLMs)在面对精心设计的越狱攻击时的脆弱性,提出了一种新的攻击方法——Semantic Mirror Jailbreak(SMJ)。SMJ通过生成与原始问题在语义上高度相似的越狱提示,成功绕过了LLMs的防御机制。这种方法不仅提高了攻击的成功率,而且在保持语义相似性的同时,也提高了对现有防御措施的抵抗力。实验结果表明,SMJ在多个开源LLMs上的表现优于现有的AutoDAN-GA方法。尽管研究提出了一种可能对LLMs构成威胁的方法,但作者强调,这一研究的目的是为了促进对LLMs安全防护措施的进一步研究和改进。

Last updated