Combating Adversarial Attacks with Multi-Agent Debate
Last updated
Last updated
当前最先进的语言模型(LLMs)在推理时容易受到对抗性攻击的影响,例如由红队(red teams)生成的对抗性提示。这些攻击旨在操纵模型,使其生成可能对用户有害的不安全输出。因此,提高语言模型对此类对抗性提示的鲁棒性是确保这些模型在现实世界部署安全的关键方面。多智能体辩论(multi-agent debate)是一种技术,通过多个语言模型实例相互批评对方的响应来进行自我评估,可以看作是链式思维(chain-of-thought)提示和自我精炼的延伸。
过去的研究已经使用多智能体辩论来提高语言模型的事实性和推理能力,以及在下游任务上的表现。然而,如果一个LLM“代理”输出了一个有害的响应,它也可能“污染”辩论中其他代理的响应,导致输出更加有害或模型毒性没有显著改善。因此,尽管多智能体辩论在其他应用中已经证明是成功的,但研究LLMs在受到对抗性提示时的辩论动态变得尤为重要。
本文在Llama-2和GPT-3系列的LLMs之间实现了多智能体辩论,并使用提示工程来模拟有毒模型参与多智能体辩论的效果。然后,研究模型对已知会引出有害响应的提示在单智能体、自我精炼和多智能体辩论设置中的响应。实验发现,配备多智能体辩论的模型在推理时通常对对抗性提示产生较少的有害响应,即使对于那些已经通过人类反馈的强化学习等方法微调过的模型也是如此。
实现了LLMs之间的多智能体辩论,并评估了模型在单智能体和多智能体设置中对红队攻击的易感性。
发现多智能体辩论可以减少模型毒性,尤其是当被破解或能力较弱的模型被迫与未被破解或更强大的模型辩论时。
通过嵌入聚类对对抗性提示内容进行分类,并分析不同模型对不同类型攻击主题的易感性。
实验包括使用Anthropic的红队数据集,该数据集包含了对不同规模和模型类型的LLMs的人类众包攻击。实验使用自己微调的分类器模型和公开可用的Perspective API来评估模型输出的有害性。实验结果表明,多智能体辩论在降低响应有害性方面比自我精炼等方法更有效。
在多智能体辩论中,当“有害”代理与遵循安全原则的模型配对时,经过1-2轮讨论后,模型输出的有害性显著降低。
无害初始提示的模型可能会受到有害意图代理的负面影响,但这种效应不如与未被破解代理的多智能体辩论的正面效应强烈。
本文分析了在推理时使用多智能体辩论来保护LLMs免受对抗性攻击的有效性。实验结果表明,多智能体辩论在降低响应有害性方面有一定的效果,但这种方法远非完美。未来的工作可以考虑不同提供商之间的模型之间的辩论是否可以帮助提高每个单独模型的对抗性鲁棒性,以及更复杂的“辩论”或“讨论”框架在更长的互动和更多代理中的表现如何。
本文探讨了多智能体辩论作为一种提高语言模型对抗性攻击鲁棒性的方法。通过在不同模型之间实施辩论,研究发现这种方法能够在一定程度上降低模型输出的有害性。然而,这种方法也存在局限性,例如在辩论环境中多次查询大型模型可能会导致资源消耗和延迟。未来的研究可以探索更复杂的辩论框架和模型意图的特定微调,以提高这种方法的效率和有效性。同时,研究也强调了在进行此类研究时需要考虑的伦理问题,确保模型不会在辩论过程中发展出新的攻击手段。