Evaluation and Analysis of Hallucination in Large Vision-Language Models

研究背景

大型视觉-语言模型（LVLMs）在多模态能力方面取得了显著的成功，尤其是在零样本学习方面。然而，LVLMs仍然面临着幻觉问题，即模型生成的响应中包含了视觉输入中不存在的信息。这种幻觉问题限制了LVLMs在许多场景中的实用性，并可能带来严重的后果。

过去方案和缺点

以往的研究主要集中在LLMs（大型语言模型）和VLPMs（视觉-语言预训练模型）的幻觉问题上。LLMs的幻觉主要源于训练数据中的错误知识，而VLPMs的挑战在于准确表示抽象视觉编码中的视觉信息。尽管LVLMs结合了LLMs和VLPMs的优势，但它们也继承了两种幻觉生成的途径。现有的基于对象的幻觉评估框架（如POPE）依赖于对象检测器来识别图像中的所有对象，并使用预定义的提示来查询模型关于不存在对象的存在。然而，这种方法在理想化的幻觉评估场景中容易受到提示的影响，导致偏差响应，不能作为幻觉评估的依据。

本文方案和步骤

本文提出了基于大型语言模型（LLM）的幻觉评估框架HaELM（Hallucination Evaluation based on Large Language Models）。HaELM的步骤包括：

识别LVLMs的幻觉模式并系统地收集其幻觉响应。
设计提示以从ChatGPT中引出与这些模式一致的响应，收集相关训练数据。
通过LoRA（Low-Rank Adaptation）方法对LLaMA模型进行微调。

本文创新点与贡献

提出了HaELM框架，它在幻觉评估方面与ChatGPT具有可比的性能，并且具有低成本、可复现性、隐私保护和本地部署等额外优势。
利用HaELM评估了当前LVLMs中的幻觉，并分析了导致幻觉的因素，提供了减轻幻觉问题的有用建议。
数据和代码已在GitHub上公开，以便社区进一步研究和应用。

本文实验

实验使用了MS-COCO 2014数据集，并对现有的开源LVLMs（如mPLUG-Owl、MiniGPT-4和LLaVA）进行了幻觉评估。实验结果表明，HaELM在非幻觉响应上的表现优于ChatGPT，而在幻觉响应上略逊一筹。此外，还探讨了生成长度、采样方法等因素对幻觉的影响。

实验结论

HaELM在幻觉评估方面表现出色，尤其是在非幻觉响应上。
生成长度和采样方法对LVLMs的幻觉有显著影响，较短的响应和适当的采样策略可以减少幻觉。
HaELM在成本和时间上比ChatGPT更有优势，尤其是在需要多次评估的情况下。

全文结论

本文通过分析现有幻觉评估方法的局限性，提出了HaELM框架，该框架在实际场景中对LVLMs的幻觉进行了有效的评估。通过实验，本文还提供了减轻幻觉问题的建议，并为未来的研究提供了有价值的见解。

阅读总结报告

本研究针对大型视觉-语言模型（LVLMs）中的幻觉问题提出了一个新的评估框架HaELM。通过实验验证，HaELM在评估幻觉方面与ChatGPT相比具有可比的性能，同时在成本、可复现性、隐私保护和本地部署方面具有优势。研究还分析了影响幻觉的因素，并提出了相应的缓解策略。这些发现对于提高LVLMs的实用性和可靠性具有重要意义，并为未来的研究提供了新的方向。

PreviousBlack Box Adversarial Prompting for Foundation Models NextFOOL YOUR (VISION AND) LANGUAGE MODEL WITH EMBARRASSINGLY SIMPLE PERMUTATIONS

Last updated 1 year ago