Aligning Modalities in Vision Large Language Models via Preference Fine-tuning

1. 研究背景

视觉大型语言模型（VLLMs）在多种任务上取得了显著进展，尤其是在图像描述和视觉问答（VQA）方面。然而，VLLMs在处理图像时可能会出现“幻觉”现象，即生成与图像内容不符的内容。这种现象在高风险场景（如医疗领域或自动驾驶）中可能导致严重问题。

2. 过去方案和缺点

以往的研究尝试通过人类反馈的强化学习（RLHF）来增强VLLMs的模态对齐，但这些方法依赖于人工数据生成，成本高昂且难以扩展。此外，现有的偏好数据生成过程在VLLMs中存在挑战，因为模型可能难以准确对齐图像与生成的响应。

3. 本文方案和步骤

本文提出了一种名为POVID（Preference Optimization in VLLM with AI-Generated Dispreferences）的框架，旨在通过AI生成的不受欢迎的数据来对齐图像和文本模态。POVID采用两种策略：首先，使用GPT-4V向正确答案注入合理的幻觉；其次，通过扭曲图像来触发VLLM的内在幻觉行为。这两种生成策略都集成到直接偏好优化（DPO）框架中，专门针对语言生成与图像的对齐。

4. 本文创新点与贡献

提出了POVID框架，使用AI生成的不受欢迎的数据来对齐VLLMs中的图像和文本模态。
该方法不需要人工反馈，易于扩展，并且能够显著减少幻觉。
实验结果表明，POVID在多个基准测试中提高了模型性能，优于先前的方法。

5. 本文实验

实验在多个基准测试上评估了POVID的有效性，包括CHAIRS、POPE、MMHal等幻觉评估基准，以及SciQA-IMG、MM-Vet、MMBench等综合评估基准。实验结果表明，POVID能够有效减少幻觉并提高模型性能。

6. 实验结论

POVID通过生成不受欢迎的数据，有效地减少了VLLMs中的幻觉现象，并在多个评估基准上提高了模型性能。此外，POVID能够引导VLLMs更多地关注图像模态，从而实现更好的模态对齐。

7. 全文结论

本文通过POVID框架，提出了一种新的VLLM偏好优化方法，该方法通过AI生成的不受欢迎的数据来对齐图像和文本模态，有效地减少了幻觉并提高了模型的整体性能。POVID的方法具有易于部署和扩展的优势，为VLLMs的进一步研究和应用提供了新的方向。

阅读总结

本文针对VLLMs中的幻觉问题，提出了POVID框架，通过AI生成的不受欢迎的数据来对齐图像和文本模态。POVID的方法不仅减少了幻觉，而且在多个评估基准上提高了模型性能。这一创新方法为VLLMs的发展提供了新的视角，并为未来在高风险领域的应用奠定了基础。

这项工作的核心策略是首先通过AI模型（如GPT-4V）在正确的答案中引入幻觉（即不准确的描述），然后通过引入图像扭曲来触发VLLMs的内在幻觉行为。这样，研究者们能够生成一组不受欢迎（即错误或幻觉）的响应数据。接下来，这些不受欢迎的响应数据被用来与真实的、高质量的图像描述（作为受欢迎的响应）一起，通过直接偏好优化（DPO）框架进行模型微调。这个过程旨在训练VLLMs更好地对齐图像和文本模态，从而减少幻觉现象，提高模型在视觉理解任务中的准确性。简而言之，这项工作通过生成幻觉数据来训练模型识别和抑制幻觉，以实现更好的模态对齐

PreviousEFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large NextRobust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Lang

Last updated 1 year ago