Evaluation and Analysis of Hallucination in Large Vision-Language Models
Last updated
Last updated
大型视觉-语言模型(LVLMs)在多模态能力方面取得了显著的成功,尤其是在零样本学习方面。然而,LVLMs仍然面临着幻觉问题,即模型生成的响应中包含了视觉输入中不存在的信息。这种幻觉问题限制了LVLMs在许多场景中的实用性,并可能带来严重的后果。
以往的研究主要集中在LLMs(大型语言模型)和VLPMs(视觉-语言预训练模型)的幻觉问题上。LLMs的幻觉主要源于训练数据中的错误知识,而VLPMs的挑战在于准确表示抽象视觉编码中的视觉信息。尽管LVLMs结合了LLMs和VLPMs的优势,但它们也继承了两种幻觉生成的途径。现有的基于对象的幻觉评估框架(如POPE)依赖于对象检测器来识别图像中的所有对象,并使用预定义的提示来查询模型关于不存在对象的存在。然而,这种方法在理想化的幻觉评估场景中容易受到提示的影响,导致偏差响应,不能作为幻觉评估的依据。
本文提出了基于大型语言模型(LLM)的幻觉评估框架HaELM(Hallucination Evaluation based on Large Language Models)。HaELM的步骤包括:
识别LVLMs的幻觉模式并系统地收集其幻觉响应。
设计提示以从ChatGPT中引出与这些模式一致的响应,收集相关训练数据。
通过LoRA(Low-Rank Adaptation)方法对LLaMA模型进行微调。
提出了HaELM框架,它在幻觉评估方面与ChatGPT具有可比的性能,并且具有低成本、可复现性、隐私保护和本地部署等额外优势。
利用HaELM评估了当前LVLMs中的幻觉,并分析了导致幻觉的因素,提供了减轻幻觉问题的有用建议。
数据和代码已在GitHub上公开,以便社区进一步研究和应用。
实验使用了MS-COCO 2014数据集,并对现有的开源LVLMs(如mPLUG-Owl、MiniGPT-4和LLaVA)进行了幻觉评估。实验结果表明,HaELM在非幻觉响应上的表现优于ChatGPT,而在幻觉响应上略逊一筹。此外,还探讨了生成长度、采样方法等因素对幻觉的影响。
HaELM在幻觉评估方面表现出色,尤其是在非幻觉响应上。
生成长度和采样方法对LVLMs的幻觉有显著影响,较短的响应和适当的采样策略可以减少幻觉。
HaELM在成本和时间上比ChatGPT更有优势,尤其是在需要多次评估的情况下。
本文通过分析现有幻觉评估方法的局限性,提出了HaELM框架,该框架在实际场景中对LVLMs的幻觉进行了有效的评估。通过实验,本文还提供了减轻幻觉问题的建议,并为未来的研究提供了有价值的见解。
本研究针对大型视觉-语言模型(LVLMs)中的幻觉问题提出了一个新的评估框架HaELM。通过实验验证,HaELM在评估幻觉方面与ChatGPT相比具有可比的性能,同时在成本、可复现性、隐私保护和本地部署方面具有优势。研究还分析了影响幻觉的因素,并提出了相应的缓解策略。这些发现对于提高LVLMs的实用性和可靠性具有重要意义,并为未来的研究提供了新的方向。