CAN LLMS DEEPLY DETECT COMPLEX MALICIOUS QUERIES? A FRAMEWORK FOR JAILBREAKING VIA OBFUSCATING INTEN

研究背景

本研究探讨了大型语言模型（LLMs）在检测复杂查询中的恶意意图方面的潜在安全隐患。研究揭示了在分析复杂或模糊的请求时，LLMs可能无法识别其背后的恶意，暴露了它们内容处理机制的关键缺陷。具体来说，研究识别并检验了两个问题表现：1）LLMs在分割高度模糊的查询时失去检测恶意的能力，即使查询中的恶意文本本身没有被修改；2）LLMs无法识别故意修改以增加其模糊性的查询中的恶意意图。

过去方案和缺点

以往的研究和实践表明，尽管LLMs不断更新安全措施，但仍然存在被利用获取有害内容或泄露私人信息的情况。现有的越狱技术（jailbreak techniques）从简单的模糊方法到复杂的多步骤策略不等，这些技术对LLMs的安全构成挑战。然而，由于缺乏统一的理论框架，我们对某些攻击成功而其他失败的原因理解不足，导致策略效率低下且资源密集。

本文方案和步骤

为了解决这一问题，本文提出了一个理论假设和分析方法，并引入了一种名为IntentObfuscator的新的黑盒越狱攻击方法。该方法利用已识别的缺陷，通过模糊用户提示背后的真正意图来实施攻击。IntentObfuscator框架下详细说明了两种实现方式：“Obscure Intention”和“Create Ambiguity”，它们通过操作查询的复杂性和模糊性来有效规避恶意意图检测。

IntentObfuscator攻击方法详细说明

概念定义

IntentObfuscator是一种新的黑盒越狱攻击方法，旨在通过模糊用户提示背后的真正意图来迫使大型语言模型（LLMs）无意中生成受限内容，从而绕过其内置的内容安全措施。

攻击策略

IntentObfuscator包含两种具体的实施策略：

Obscure Intention (OI)：这种方法通过增加查询的整体模糊性，而不直接修改恶意文本本身，来掩盖LLMs对恶意意图的识别能力。具体来说，它涉及将无关的合法句子附加到查询中，从而增加整体的模糊性。
Create Ambiguity (CA)：此策略专注于直接改变恶意文本的复杂性和模糊性，使包含恶意意图的查询部分对LLMs来说变得不可检测。

实施步骤

输入恶意意图文本：攻击者输入他们想要LLMs生成的恶意内容或意图。
结合正常意图模板：将恶意意图文本与正常的意图模板结合起来。
应用LLM内容安全规则：考虑LLMs的内容安全规则，以生成能够绕过这些规则的提示。
生成伪合法提示：通过上述步骤生成的提示旨在让LLMs难以区分真正的意图，并可能披露有害信息。

攻击框架

IntentObfuscator框架设计用于混淆LLMs，以绕过它们的内容安全检查。该框架通过数学建模和实验验证来评估这种方法的有效性。

实验验证

研究者们构建了特定的查询示例，应用上述模糊策略，并观察LLMs对这些模糊查询的响应，以验证假设和方法的有效性。

攻击效果

实验结果表明，IntentObfuscator方法在多个模型上都取得了显著的越狱成功率，平均达到69.21%，特别是在ChatGPT-3.5上，成功率达到了83.65%。

攻击意义

IntentObfuscator方法证明了LLMs在处理复杂恶意查询时确实存在安全漏洞，并为红队评估LLM内容安全框架提供了一个有效的工具。

本文创新点与贡献

提出了一个理论假设，并对基于提示的越狱攻击进行了详细分析，为设计更有效的攻击策略提供了基础理解。
引入了IntentObfuscator攻击框架，该框架通过在提示中模糊恶意意图，有效利用LLMs的漏洞。
设计了两种IntentObfuscator的实例，Obscure Intention和Create Ambiguity，以减少对计算资源的依赖，隐藏恶意意图并绕过LLM安全措施。
在包括ChatGPT-3.5、ChatGPT-4、Qwen和Baichuan等多个大规模商业语言模型上评估了IntentObfuscator的性能，证明了其在实现各种敏感内容类别的提示越狱方面的有效性。

本文实验

实验在几个模型上验证了IntentObfuscator方法的有效性，包括ChatGPT-3.5、ChatGPT-4、Qwen和Baichuan，平均越狱成功率为69.21%。特别地，在声称有1亿周活跃用户的ChatGPT-3.5上的测试，取得了83.65%的显著成功率。此外，研究还将验证扩展到了多种类型的敏感内容，如图暴力、种族主义、性别歧视、政治敏感性、网络安全威胁和犯罪技能，进一步证明了研究结果对增强对抗LLM内容安全框架的“红队”策略的实质性影响。

实验结论

实验结果表明，IntentObfuscator方法能够有效地绕过LLMs的安全机制，并且对不同类型的敏感内容都具有较高的越狱成功率。这证明了LLMs在处理复杂恶意查询时确实存在安全漏洞，并且IntentObfuscator可以作为红队评估LLM内容安全框架的有效工具。

全文结论

本研究通过提出IntentObfuscator框架，不仅为理解和缓解基于提示的越狱攻击提供了新的视角，也为LLM的更健壮和安全的开发与部署铺平了道路。

阅读总结报告

这篇论文深入探讨了大型语言模型在处理复杂查询时可能存在的安全隐患，特别是它们在检测恶意意图方面的不足。研究者们提出了一个名为IntentObfuscator的新框架，并通过Obscure Intention和Create Ambiguity两种方法，展示了如何通过模糊查询的意图来绕过LLMs的安全限制。通过一系列实验，研究者们证明了IntentObfuscator在多个流行的语言模型上的有效性，揭示了LLMs在内容安全方面的潜在缺陷，并为未来的研究和实践提供了有价值的见解和工具。

这项研究不仅对理解LLMs的安全漏洞具有重要意义，同时也为如何提高LLMs的安全性提供了实际的指导。研究者们提出的框架和方法，对红队策略和内容安全领域的专业人士来说，是一个宝贵的资源。此外，论文还指出了现有防御策略的局限性，并对未来如何改进LLMs的安全机制提出了建议。

PreviousChain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM NextSHADOW ALIGNMENT: THE EASE OF SUBVERTING SAFELY-ALIGNED LANGUAGE MODELS

Last updated 1 year ago