Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM
Last updated
Last updated
近年来,大型语言模型(LLMs)在自然语言处理(NLP)任务,尤其是对话系统中取得了显著的性能。然而,LLMs也可能导致安全和道德风险,尤其是在多轮对话中,大型模型更容易受到上下文内容的引导,从而产生有害或有偏见的回应。
以往的攻击方法主要包括:
单轮越狱攻击,无需反馈,通过生成与模型混淆的对抗性场景来生成不安全内容。
单轮攻击配合反馈机制,利用模型的响应来优化后续的攻击提示。
多轮攻击,针对大型语言模型的多轮对话,诱导模型在多轮对话过程中生成不安全内容。
这些方法的局限性在于,它们主要在单句或单轮场景的约束下执行,或者缺乏对动态上下文和多轮对话中后续反应的考虑。
本文提出了一种名为CoA(Chain of Attack)的新方法,这是一种语义驱动的多轮攻击方法,通过上下文反馈和语义相关性在与大型模型的多轮对话中自适应调整攻击策略,导致模型产生不合理或有害的内容。CoA的步骤包括:
种子攻击链生成器:基于选定的目标任务生成多个候选的多轮攻击提示。
攻击链执行器:系统地将攻击提示输入目标模型,并评估模型的回应。
攻击链更新器:基于模型回应的语义增量攻击策略选择和上下文驱动的攻击者。
揭示了在多轮对话中大型模型的隐蔽攻击模式。
提出了CoA,这是一种新的攻击方法,能够根据对话的上下文和反应动态生成和执行一系列攻击行为。
在不同的大型语言模型和对话数据集上进行了广泛的实验,证明了CoA方法能够有效地触发大型语言模型的错误和偏见。
实验使用了来自PAIR和GCG数据集的多个数据集,以及Vicuna-13b-v1.516k和Llama-2-7b-chathf等模型。实验设置包括攻击模型、目标模型和评估模型的选择,以及参数配置。
CoA方法在不同的数据集和语言模型上表现出色,特别是在攻击成功率(ASR)方面。实验结果表明CoA能够有效地利用各种模型中的漏洞,证明了该方法在提高模型安全性和性能方面的有效性。
本文提出的CoA方法为发现LLMs在多轮对话中的安全漏洞提供了新的视角和工具,有助于对话系统的安全性和道德评估。未来的工作将探索如何在多轮对话中防御攻击,并从更内在的安全机制角度分析多轮对话场景中的攻击。
本文针对大型语言模型在多轮对话中的潜在安全和道德风险提出了CoA攻击方法。CoA通过动态调整攻击策略,有效地揭示了LLMs的脆弱性。实验结果证明了CoA在不同模型和数据集上的有效性,为提升对话系统的安全性提供了有价值的见解。未来的研究方向将集中在防御多轮对话中的攻击,并深入分析内在的安全机制。