Fake Alignment: Are LLMs Really Aligned Well?

研究背景：随着大型语言模型（LLMs）在各种任务中展现出强大的能力并逐渐被广泛部署，它们的安全性问题引起了人们的关注。LLMs可能会生成恶意内容，如有毒和有偏见的言论、危险行为指南和隐私泄露等，这引发了对其安全性的担忧。尽管已经出现了许多评估LLMs安全性的基准测试，但研究发现LLMs在多项选择题和开放式问题的安全性能评估之间存在显著差异。这种差异可能是由于模型在安全训练方面未能全面覆盖其预训练能力的范围，导致模型在某些方面只是模仿安全数据，而没有真正理解人类偏好，这种现象被称为“假对齐”（fake alignment）。
过去方案和缺点：以往的安全评估方法主要依赖于开放式问题和多项选择题，但这些方法未能充分揭示LLMs在不同评估形式下的一致性。开放式问题通常要求LLM给出回答，然后由人类或其他LLMs判断其安全性；而多项选择题则要求LLM从多个选项中选择一个认为安全的选项。研究发现，尽管LLMs在开放式问题上表现良好，但在多项选择题上的表现却较差，这表明现有的评估协议可能不可靠。

本文方案和步骤：为了解决这一问题，研究者们提出了一个名为Fake alIgNment Evaluation (FINE)的框架，并引入了两个新的评估指标——一致性得分（Consistency Score, CS）和一致性安全得分（Consistent Safety Score, CSS）。FINE框架通过比较LLMs在开放式问题和多项选择题上的一致性来量化假对齐，并获取校正后的性能估计。研究者们首先设计了一个包含五个类别（公平性、个人安全、合法性、隐私和社会伦理）的测试数据集，每个测试问题都包含一个开放式问题及其对应的多项选择题。然后，他们对14个常用的LLMs进行了测试，结果表明一些声称具有安全性的模型实际上对齐程度很差。
本文实验和性能：实验结果表明，使用FINE框架对14个广泛使用的LLMs进行评估后，发现几个模型在实践中的对齐程度很差。这些模型在开放式问题上表现出色，但在多项选择题上却表现不佳，这进一步证实了假对齐的存在。此外，即使在监督微调后，LLMs在多项选择题上的表现提升仍然非常有限，这进一步证明了一致性测试能够有效揭示LLMs中的假对齐问题。

阅读总结报告：本文研究了LLMs在安全评估中的假对齐问题，并提出了FINE框架来量化这一现象。通过设计包含开放式问题和多项选择题的测试数据集，研究者们揭示了LLMs在不同评估形式下的一致性问题。实验结果表明，一些LLMs在多项选择题上的表现远低于开放式问题，这表明它们可能没有真正理解安全概念。FINE框架的提出为评估LLMs的安全性提供了一种新的方法，有助于更准确地评估和改进LLMs的安全对齐。

PreviousMaking Harmful Behaviors Unlearnable for Large Language Models NextRed-Teaming Large Language Models using Chain of Utterances for Safety-Alignment

Last updated 1 year ago