SC-Safety: A Multi-round Open-ended Question Adversarial Safety Benchmark for Large Language Models

研究背景

随着大型语言模型（LLMs）如ChatGPT和GPT-4的出现，它们在自然语言理解和生成方面展现出了显著的能力。然而，LLMs的输出并不总是可靠、安全和负责任的，尤其是在用户提供有害提示或进行对抗性攻击时。这些担忧阻碍了LLMs的应用和部署。在中国，随着LLMs的快速发展，相应的政策和法规也相应出台。新发布的《生成式AI服务管理规定》对LLMs的安全提出了约束和义务。此外，安全性的提升需求日益增长。尽管当前的中文基准测试已经涵盖了安全性评估，但它们存在几个主要限制。

过去方案和缺点

现有的中文基准测试在安全性评估方面存在以下主要限制：

低难度：大多数模型可以轻易达到95%以上的准确率，表明挑战不足。
受限任务：只考虑单轮或多选题，未考虑多轮对话，未能充分评估现实世界互动场景中的安全性。
狭窄覆盖：关注传统安全问题，忽视了新兴风险，如不负责任的AI和对指令攻击的脆弱性。

本文方案和步骤

为了克服这些限制并促进更安全的LLMs，本文引入了多轮对抗性基准测试SC-Safety，具有以下特点：

更高挑战性：对抗性的人类和模型互动显著增加了安全性评估的挑战。
多轮开放式问题：评估对话安全性风险，更好地反映现实世界设置。
全面性：涵盖传统安全、负责任的AI和对指令攻击的鲁棒性。

本文创新点与贡献

SC-Safety的引入旨在促进创建更安全、更值得信赖的LLMs的协作努力。基准测试和发现为模型选择提供了指导。本文的主要贡献包括：

提出了一个多轮对抗性基准测试，用于评估中文LLMs的安全性。
通过实验观察到闭源模型在安全性方面通常优于开源模型。
发现国内LLMs在安全性方面与GPT-3.5turbo相当。
证明了较小的模型（6B-13B参数）在安全性方面可以与拥有数千亿参数的模型竞争。

本文实验

实验评估了支持中文的13个主要LLMs，并观察到：

闭源模型在安全性方面通常优于开源模型。
国内LLMs在安全性方面与GPT-3.5turbo相当。
较小的模型（6B-13B参数）在安全性方面可以与大型模型竞争。

实验结论

实验结果表明，闭源模型在安全性方面的表现通常优于开源模型，这强调了在发布前进行安全增强的重要性。此外，国内LLMs在理解中国法规和伦理方面表现出较好的安全性。较小的模型在安全性方面也能与大型模型竞争，这表明安全性并不完全取决于模型的大小。

全文结论

SuperCLUE-Safety（SC-Safety）的引入为评估中文语言模型的安全性提供了一个全面和具有挑战性的基准。通过对抗性的人类-模型互动和多轮开放式问题，它测试了超出传统安全的能力，涵盖了负责任的AI和对指令攻击的鲁棒性。实验结果为模型选择提供了指导，并促进了开发更安全、更值得信赖的大型语言模型的共同努力。

阅读总结报告

本文介绍了SC-Safety，这是一个针对中文大型语言模型的多轮对抗性安全性基准测试。研究背景强调了LLMs在提供日常任务帮助的同时，也可能产生有害内容。过去的方案在安全性评估上存在局限性，如低难度、任务受限和狭窄的覆盖范围。本文提出的SC-Safety通过多轮对话和对抗性问题来提高挑战性，全面评估模型的安全性。实验结果表明，闭源模型在安全性方面表现更好，国内模型与国际模型相当，且小型模型也能在安全性上与大型模型竞争。这些发现为模型选择提供了指导，并推动了更安全LLMs的发展。

PreviousToViLaG: Your Visual-Language Generative Model is Also An Evildoer NextPromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

Last updated 1 year ago