Mitigating LLM Hallucinations via Conformal Abstention

研究背景

大型语言模型(LLMs)在预测下一个词方面表现出色,但同时也容易“幻觉”——即自信地生成表面上看似合理,但实际上可能是错误的或无意义的回答。这种幻觉现象在用户无法轻易验证LLM回答的事实性时尤其难以检测。因此,避免或检测幻觉已成为LLM研究中最重要的课题之一。

过去方案和缺点

以往的研究尝试通过置信度估计或更复杂的推理时间过程来检测幻觉。一个一致的观察结果是,LLM回答的不确定性或等价地,一批采样回答之间的一致性水平,往往是检测幻觉的合理代理。然而,这种方法存在两个直接挑战:如何决定对于给定问题两个回答是否一致,以及什么程度的不一致表明幻觉。

本文方案和步骤

本文提出了一种基于LLM自身评估其对给定查询的采样回答之间相似性的方法,并进一步利用一致性预测技术来开发一种具有严格理论保证的幻觉率(错误率)的放弃程序。具体步骤包括:

  1. 使用LLM自评估提示来评估两个回答的相似性。

  2. 利用一致性预测和相关风险控制技术来确定评估回答之间的一致性水平,如果一致性低于某个阈值,则LLM可能正在产生幻觉。

本文创新点与贡献

  • 提出了一种新的方法,通过LLM自评估来生成匹配分数,以计算对查询的相似回答数量。

  • 结合一致性校准,提出了一种在保持较低放弃率的同时,实现良好折衷的评分程序。

  • 提出了一种基于相似性度量自动评估LLM在测试时性能的方法,并提供了理论上对其准确性的保证,且只需要一个小的标记校准集来调整阈值。

本文实验

实验在两个公开可用的问题回答数据集上进行验证:Temporal Sequences和TriviaQA。实验旨在证明提出的一致性放弃方法能够在保持较低放弃率的同时减少幻觉,并且损失(1)是检测幻觉的合理度量。

实验结论

  • 对于长答案,使用LLM相似性提示定义的得分比基于对数概率的得分更有效。

  • 提出的校准放弃方法在两个数据集上都优于使用预测器的对数概率的简单基线方法。

全文结论

作者提出了一种一致性校准和相似性评分程序,使得LLMs能够以一种原则性的方式放弃回答。实验表明,所提出的程序在两个问题回答数据集上都取得了良好的性能,超越了简单的基线方法。

阅读总结报告

这篇论文针对大型语言模型(LLMs)在生成文本时可能出现的“幻觉”问题,提出了一种基于一致性预测的放弃策略。通过LLM自身的评估来确定回答的相似性,并结合风险控制技术,开发了一种新的放弃机制,旨在减少幻觉的发生,同时保持较低的放弃率。论文的主要贡献在于提出了一种新颖的匹配分数生成方法,并通过实验验证了该方法在不同数据集上的有效性。此外,论文还提供了一种校准匹配函数的方法,使得在测试时能够自动评估LLM的性能,并具有理论上的准确性保证。这项工作为提高LLM的可信度和可靠性提供了有价值的见解和方法。

Last updated