Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment

  1. 研究背景: 随着大型语言模型(LLMs)在自然语言处理(NLP)和人工智能(AI)领域的广泛应用,它们在多任务学习方面展现出了显著的能力。然而,LLMs在处理用户输入时可能会产生有害的输出,这使得它们在公共部署时存在风险。为了确保LLMs在提供帮助的同时不会对用户造成伤害,研究者们需要开发出能够评估和增强模型安全性的方法。

  2. 过去方案和缺点: 以往的安全评估方法主要依赖于对抗性文本、低资源语言和情境化提示等技术来测试模型的安全防护。这些方法虽然在一定程度上有效,但它们通常需要大量的计算资源,且在模型特定性、攻击成功率和普遍适用性方面存在局限性。此外,这些方法可能无法全面揭示模型在面对多样化输入时的安全行为。

  1. 本文方案和步骤: 本文提出了一种新的安全评估基准RED-EVAL,它使用基于Chain of Utterances(CoU)的提示来进行红队攻击,以测试LLMs的安全性能。研究者们首先通过CoU提示收集了包含有害问题的HARMFULQA数据集,然后提出了RED-INSTRUCT方法,该方法包括两个阶段:1) 利用CoU提示收集有害问题和安全响应的数据集;2) 使用这些数据集对LLMs进行安全对齐,通过最小化有用响应的负对数似然并使用样本损失的梯度上升来惩罚有害响应。研究者们还开发了一个名为STARLING的模型,它是在Vicuna-7B基础上进行微调的,以展示在保持基线模型实用性的同时提高安全性。

  2. 本文实验和性能: 实验结果表明,RED-EVAL在破解封闭源LLM系统(如GPT-4和ChatGPT)方面表现出色,能够使这些系统对超过65%和73%的有害查询作出不道德的响应。在开源LLMs上,RED-EVAL在86%以上的红队尝试中生成有害响应。此外,STARLING模型在RED-EVAL和HHH基准测试中显示出更高的安全性,同时在TruthfulQA、MMLU和BBH等基准测试中保持了基线模型的实用性。

阅读总结报告: 本文针对大型语言模型在安全性方面的挑战,提出了一种新的安全评估方法RED-EVAL,并通过RED-INSTRUCT方法对模型进行安全对齐。通过构建HARMFULQA数据集和使用CoU提示,研究者们能够有效地评估和增强LLMs在面对有害查询时的安全性能。STARLING模型的成功展示了在不牺牲实用性的前提下,可以显著提高模型的安全性。这项工作为LLMs的安全研究提供了新的视角,并为未来开发更安全、更负责任的AI系统奠定了基础。

Last updated