S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language

研究背景

大型语言模型（LLMs）因其革命性的能力而受到广泛关注。然而，LLMs生成的输出可能包含各种有害内容，这使得在模型部署前对其进行全面安全评估变得迫切需要。现有的安全评估基准存在以下限制：1）缺乏统一的风险分类法，使得难以系统地分类、评估和意识到不同类型的风险；2）风险性弱限制了有效反映LLMs安全性的能力；3）在测试提示生成、选择和输出风险评估方面缺乏自动化。

过去方案和缺点

现有的安全评估基准存在几个显著的局限性：

风险分类法不统一，缺乏系统性，导致评估结果只能反映LLMs安全风险的一小部分。
弱风险性限制了真实反映LLMs安全性的能力。
缺乏自动化，需要大量人力，阻碍了对快速演变的LLMs和伴随的安全威胁的有效适应性。

本文方案和步骤

为了解决这些挑战，作者提出了S-Eval，一个新的全面、多维和开放式的LLMs安全评估基准。S-Eval的核心是一个新颖的基于LLMs的自动测试提示生成和选择框架，该框架训练了一个专家测试LLM M𝐴?来支持各种测试提示生成任务，并结合了一系列测试选择策略，以自动构建高质量的测试套件。

步骤包括：

设计一个全面和统一的风险分类法，涵盖八个风险维度、25个风险类别、56个风险子类别和52个风险子子类别。
提出基于LLMs的自动测试提示生成和选择框架。
训练专家安全评价LLM M𝐴?，提供风险评分、标签和解释，以提高风险意识。
系统地构建了一个新的大规模安全评估基准，包括220,000个评估提示。

本文创新点与贡献

设计了一个新的统一风险分类法，涵盖广泛的风险特征。
提出了基于LLMs的自动测试生成和选择框架，灵活配置和适应新风险、攻击和模型。
训练了专家安全评价LLM，不仅作为测试预言机，还提供风险标签和解释。
发布了一个全面的、多维的、开放式的安全评估基准，包括220,000个提示。
对20个流行的LLMs进行了广泛评估，提供了评估LLMs安全性的系统方法。

本文实验

实验包括：

使用2,000个基础风险提示和20,000个相应的攻击提示进行评估。
评估了16个流行的、具有代表性的开源和闭源LLMs。
考虑了参数规模、语言环境和解码参数对评估的影响。

实验结论

S-Eval能够更有效地反映LLMs的安全性。
闭源LLMs的安全性平均优于开源LLMs。
在不同的风险维度上，LLMs的安全性存在显著差异。
在不同的语言环境中，LLMs的安全性也存在显著差异。

全文结论

S-Eval提供了一个全面、多维且开放式的LLMs安全评估基准，通过自动测试生成框架动态调整以适应快速演变的安全威胁和LLMs。S-Eval在准确性上显著超越了其他基准，为设计更安全的LLMs提供了新的途径。

阅读总结报告

本论文介绍了S-Eval，这是一个为大型语言模型（LLMs）设计的全面、多维和开放式的安全评估基准。研究背景突出了对LLMs安全性评估的需求，以及现有评估方法的不足。本文提出的方案包括一个基于LLMs的自动测试生成框架和专家安全评价LLM，旨在提高评估的自动化程度和准确性。

创新点在于提出了一个统一的风险分类法和自动化的测试生成与选择框架，这使得S-Eval能够灵活适应新的安全威胁。此外，通过训练专家安全评价LLM，本文提供了一种有效且可解释的安全评估方法。

实验部分对多个流行的LLMs进行了评估，结果显示S-Eval在反映LLMs安全性方面优于现有基准。实验结论指出闭源模型通常比开源模型更安全，同时在不同风险维度和语言环境中，LLMs的安全性存在显著差异。

总的来说，S-Eval为评估和改进LLMs的安全性提供了一个有力的工具，其自动化和适应性的特点使其成为未来研究的重要资源。

PreviousHarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal NextUnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images

Last updated 1 year ago