MITIGATING HALLUCINATION IN LARGE MULTIMODAL MODELS VIA ROBUST INSTRUCTION TUNING

1. 研究背景

大型多模态模型(LMMs)在处理视觉和语言任务时取得了显著进展,但这些模型容易在图像和人类指令相关描述中产生幻觉(hallucination),即生成与给定图像不一致的描述。这种幻觉问题不仅是一个主要的伦理关注点,而且当用户过度依赖这些模型时,可能会导致有害后果。

2. 过去方案和缺点

以往的研究主要集中在使用大型语言模型(LLM)和高质量的指令数据来提高模型的性能。然而,这些方法通常依赖于语言先验,并且可能在训练数据中缺乏多样性,导致模型在遵循人类指令时出现幻觉。此外,现有的评估方法如CHAIR需要复杂的手工规则,而将幻觉问题转化为二元分类任务的方法则高度依赖于人工注释的基准答案。

3. 本文方案和步骤

本文提出了第一个大型和多样化的视觉指令调整数据集,名为Large-scale Robust Visual (LRV)-Instruction。该数据集包含由GPT4生成的400k视觉指令,涵盖16个视觉和语言任务,包含开放式指令和答案。本文设计的LRV-Instruction不仅包括正面指令,还包括负面指令,以便进行更健壮的视觉指令调整。此外,提出了GPT4-Assisted Visual Instruction Evaluation (GAVIE)方法,这是一种稳定的方法,用于评估视觉指令调整,类似于人类专家的评估方式。

4. 本文创新点与贡献

  • 构建了包含400k视觉指令的大型和多样化数据集LRV-Instruction,覆盖16个视觉和语言任务,并在不同的语义层面和风格中包含负面指令。

  • 提出了GAVIE,一种新颖的方法,用于评估视觉指令调整,无需地面真实答案,且可以轻松适应不同的指令格式。

  • 通过在LRV-Instruction上微调MiniGPT4和mPLUG-Owl,验证了LRV-Instruction在健壮视觉指令调整中的有效性,并且在多个公共数据集上取得了与最先进方法相比更好的性能。

5. 本文实验

  • 对五个公开可用的LMMs进行了零样本性能评估,包括MiniGPT4、LLaVA、InstructBLIP、Multimodal-GPT (MMGPT)和mPLUG-Owl。

  • 使用GAVIE对这些模型在提出的评估集上的输出进行了评估,并与人类专家的评估进行了比较。

  • 通过微调MiniGPT4和mPLUG-Owl,展示了在不同语义层面上的幻觉问题,并通过实验验证了平衡正负样本比例对于提高模型性能的重要性。

6. 实验结论

实验结果表明,现有的LMMs在面对负面指令时会产生显著的幻觉,尤其是关于现有对象和知识操作的指令。通过在LRV-Instruction上微调,可以显著减少幻觉,并在多个公共基准上取得最先进的性能。此外,训练数据中正负样本的平衡比例对于模型的健壮性至关重要。

7. 全文结论

本文通过构建LRV-Instruction数据集和提出GAVIE评估方法,有效地解决了大型多模态模型在视觉指令调整中的幻觉问题。实验验证了该方法的有效性,并为未来研究提供了新的方向,包括使用更强大的视觉模型来匹配多模态GPT4的能力,以及探索其他偏见以开发更健壮的模型。

Last updated