Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM

近年来，大型语言模型（LLMs）在自然语言处理（NLP）任务，尤其是对话系统中取得了显著的性能。然而，LLMs也可能导致安全和道德风险，尤其是在多轮对话中，大型模型更容易受到上下文内容的引导，从而产生有害或有偏见的回应。

以往的攻击方法主要包括：

这些方法的局限性在于，它们主要在单句或单轮场景的约束下执行，或者缺乏对动态上下文和多轮对话中后续反应的考虑。

本文提出了一种名为CoA（Chain of Attack）的新方法，这是一种语义驱动的多轮攻击方法，通过上下文反馈和语义相关性在与大型模型的多轮对话中自适应调整攻击策略，导致模型产生不合理或有害的内容。CoA的步骤包括：

实验使用了来自PAIR和GCG数据集的多个数据集，以及Vicuna-13b-v1.516k和Llama-2-7b-chathf等模型。实验设置包括攻击模型、目标模型和评估模型的选择，以及参数配置。

CoA方法在不同的数据集和语言模型上表现出色，特别是在攻击成功率（ASR）方面。实验结果表明CoA能够有效地利用各种模型中的漏洞，证明了该方法在提高模型安全性和性能方面的有效性。

本文提出的CoA方法为发现LLMs在多轮对话中的安全漏洞提供了新的视角和工具，有助于对话系统的安全性和道德评估。未来的工作将探索如何在多轮对话中防御攻击，并从更内在的安全机制角度分析多轮对话场景中的攻击。

本文针对大型语言模型在多轮对话中的潜在安全和道德风险提出了CoA攻击方法。CoA通过动态调整攻击策略，有效地揭示了LLMs的脆弱性。实验结果证明了CoA在不同模型和数据集上的有效性，为提升对话系统的安全性提供了有价值的见解。未来的研究方向将集中在防御多轮对话中的攻击，并深入分析内在的安全机制。

Last updated 1 year ago