Fake Alignment: Are LLMs Really Aligned Well?
Last updated
Last updated
大型语言模型(LLMs)如ChatGPT、Claude等在多种任务中展现出强大的能力,但同时也引发了安全方面的担忧。LLMs可能生成有害内容,如有毒和有偏见的言论、危险行为指南和隐私泄露等。现有的安全评估基准主要分为开放式问题和多项选择题两种形式,但研究发现LLMs在这两种形式的评估中表现不一致,尤其是在多项选择题上表现较差。
过去的研究主要关注于开放式问题的评估,而忽视了多项选择题形式。这种不一致的表现可能表明LLMs在安全训练方面存在缺陷,即它们可能只是记住了如何回答安全问题,而没有真正理解安全概念。这种现象被称为“假对齐”(fake alignment),它使得之前的评估协议变得不可靠。
本文提出了一个名为Fake alIgNment Evaluation (FINE)的框架,以及两个新的评估指标——一致性得分(Consistency Score, CS)和一致性安全得分(Consistent Safety Score, CSS)。FINE框架通过比较LLMs在开放式问题和多项选择题上的表现一致性来量化假对齐,并获取校正后的性能估计。
发现了LLMs中的假对齐问题,并提出了一种新的评估方法来量化这一现象。
设计了一个包含开放式问题和多项选择题的测试数据集,用于直接比较模型在两种评估形式下的表现。
提出了FINE框架,它可以将现有的开放式问题数据集转换为评估LLMs假对齐的工具,并且只需要少量的人工协助。
实验在14个广泛使用的LLMs上进行,包括GPT-3.5-Turbo、Claude、InternLM等。实验结果表明,一些模型在假对齐方面存在严重问题,即使在经过监督微调后,它们在多项选择题上的表现仍然有限。
通过FINE框架的评估,发现多个LLMs在假对齐方面存在显著问题。这表明现有的安全评估方法可能无法准确反映LLMs的真实对齐水平。FINE框架提供了一种更可靠的评估方法,可以更准确地估计LLMs的内部对齐水平。
本文通过研究LLMs的假对齐问题,提出了FINE框架来更准确地评估LLMs的安全对齐。实验结果揭示了当前LLMs在安全对齐方面可能存在的局限性,并为开发改进的安全对齐算法提供了有价值的见解。
本文针对LLMs在安全评估中的表现不一致问题进行了深入研究,并提出了假对齐的概念。通过设计新的测试数据集和评估框架,本文不仅揭示了LLMs在安全对齐方面的潜在问题,还提供了一种新的评估方法来更准确地衡量LLMs的安全性能。这一发现对于LLMs的开发者和使用者来说具有重要意义,因为它强调了在部署LLMs时需要更加关注其安全对齐的实际情况。