Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback

研究背景

大型视觉语言模型（LVLMs）在多模态任务上表现出显著的能力，但仍然面临着幻觉现象的问题。所谓幻觉现象，是指生成的文本与给定上下文不一致，包含关于视觉输入的错误对象、属性和关系，这显著限制了LVLMs的应用范围。

过去方案和缺点

以往的研究主要分为两个方向：幻觉检测和缓解。幻觉检测旨在识别LVLM输出中是否存在幻觉，以防止潜在的恶意使用。幻觉缓解则旨在使LVLM生成更忠实的响应，主要分为无需训练和基于训练的方法。无需训练的方法通过后处理LVLMs的输出来解决潜在的幻觉问题，但会降低推理速度。基于训练的方法通过进一步的指令微调或在特定构建的数据集上进行偏好学习来减少幻觉。然而，现有研究存在一些挑战：首先，基于训练的缓解方法需要昂贵的注释；其次，偏好数据通常是在响应级别，这不利于彻底检测和缓解幻觉；最后，现有研究通常同等对待所有幻觉，导致不太严重的幻觉被解决，而更严重的幻觉被忽视。

本文方案和步骤

本文提出了一种通过细粒度AI反馈来检测和缓解LVLMs中的幻觉的方法。主要包括以下步骤：

细粒度AI反馈：生成一个小规模的句子级幻觉注释数据集，用于全面的幻觉检测和缓解。
幻觉检测：在细粒度AI反馈上训练幻觉检测模型，该模型能够执行句子级幻觉检测，涵盖主要幻觉类型（即对象、属性和关系）。
检测-重写流水线：提出一个自动流水线，通过检测模型和一个重写模型来构建偏好数据集。
幻觉严重性感知的直接偏好优化（HSA-DPO）：提出区分幻觉严重性，并引入HSA-DPO，通过将幻觉严重性纳入偏好学习，优先缓解关键幻觉。

本文创新点与贡献

首次使用强大的闭源模型生成细粒度AI反馈，用于幻觉检测和缓解，这不仅有效而且减少了人类注释。
提出了一个通过两个专家模型自动构建偏好数据集的流水线，可以进一步减少注释成本并有利于偏好扩展。
提出区分幻觉的严重性，并引入HSA-DPO，用于在LVLMs中缓解幻觉。
在多模态幻觉检测和缓解基准测试上进行了广泛的实验，证明了该方法的有效性。

本文实验

实验部分评估了所提方法在检测和缓解LVLM幻觉方面的有效性。使用了包括MHaluBench、Object HalBench、AMBER、MMHal-Bench和POPE等多个基准数据集。实验结果显示，所提检测模型在MHaluBench上达到了新的最佳结果，HSA-DPO在缓解幻觉方面也取得了显著效果。

实验结论

实验结果表明，所提出的幻觉检测模型和HSA-DPO方法在幻觉检测和缓解方面均取得了良好的性能，优于现有的闭源LVLMs和其他方法。

全文结论

本文提出的通过细粒度AI反馈来检测和缓解LVLMs中的幻觉的方法，在实验中显示出了良好的性能和效果。该方法不仅能够精确地检测和缓解幻觉，而且能够以较低的成本自动构建大规模的偏好数据集，具有很高的实用价值。

阅读总结报告

本篇论文针对大型视觉语言模型（LVLMs）中的幻觉现象提出了一种新颖的解决方案。幻觉现象是指LVLMs生成的文本与实际视觉输入不匹配的问题，这限制了这些模型在实际应用中的可靠性。作者首先分析了现有方法的不足，包括昂贵的注释成本、粗糙的检测粒度以及对所有幻觉同等处理的问题。

为了解决这些问题，作者提出了一个包含三个关键组件的新框架：

细粒度AI反馈：利用专有模型生成小规模的句子级幻觉注释数据集。
幻觉检测模型：基于上述数据集训练，能够执行细粒度的幻觉检测。
检测-重写流水线：自动构建用于训练缓解模型的偏好数据集。
幻觉严重性感知的直接偏好优化（HSA-DPO）：在偏好学习中考虑幻觉的严重性，以优先解决更严重的幻觉问题。

作者通过一系列实验验证了所提方法的有效性。实验结果表明，新方法在多个基准测试中均取得了优于现有技术的性能。特别是在幻觉检测方面，所提模型在MHaluBench上达到了最佳结果，而在幻觉缓解方面，HSA-DPO显著降低了幻觉率，并在多模态任务中保持了良好的性能。

论文的创新之处在于利用细粒度的AI反馈来提高检测和缓解幻觉的准确性，并通过自动构建偏好数据集的流水线减少了人工注释的成本。此外，将幻觉严重性纳入优化过程，使得模型能够更有效地处理关键幻觉，提高了整体的输出质量。

总体而言，这篇论文为提高LVLMs的可靠性和减少幻觉现象提供了有价值的见解和方法，对于推动多模态AI领域的发展具有重要意义。

PreviousMitigating LLM Hallucinations via Conformal Abstention NextCan ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics

Last updated 1 year ago