MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark

研究背景

多模态大型语言模型(MLLMs)在人工智能领域取得了显著进展,展现出在内容生成、代码生成和视频合成等方面的潜力。然而,评估MLLMs的实用性面临挑战,主要是因为缺乏与人类偏好一致的多模态基准测试。本文受到LLMs中LLM-as-a-Judge概念的启发,提出了一个新的基准测试MLLM-as-a-Judge,以评估MLLMs在协助法官任务中的能力。

过去方案和缺点

传统的评估方法依赖于基于文本的精确匹配或嵌入距离,这些方法在捕捉生成输出的丰富上下文方面存在不足。此外,现有的评估方法在细粒度评估标准和与人类偏好一致性方面也存在局限性。

本文方案和步骤

本文提出了MLLM-as-a-Judge基准测试,包括三个不同的任务:评分评估、成对比较和批量排名。首先,作者从10个不同任务的数据集中精心策划了3300个图像-指令对。然后,使用四个知名的MLLMs(GPT-4V、Gemini、LLaVA和CogVLM)生成响应。最后,通过人类评估者对MLLMs的判断进行额外的注释,以确保公正和全面的评估。

本文创新点与贡献

  • 提出了MLLM-as-a-Judge基准测试,用于多模态领域中评估MLLMs的判断能力。

  • 策划了两个高质量的人类偏好数据集:MLLM-as-a-Judge-HQ和MLLM-as-a-Judge-HARD,用于严格的测试。

  • 发现MLLMs在成对比较任务中与人类判断一致,但在评分评估和批量排名任务中存在显著差异。

本文实验

实验涉及四个主流MLLMs(GPT-4V、Gemini、LLaVA和CogVLM)在三个不同的评估设置中的表现。实验结果表明,尽管MLLMs在成对比较任务中表现出与人类偏好的一致性,但在评分评估和批量排名任务中存在显著差异。

实验结论

MLLMs在成对比较任务中表现出与人类判断的一致性,但在评分评估和批量排名任务中,与人类偏好存在显著差异。此外,MLLMs在判断过程中表现出多种偏见和幻觉,以及不一致的判断,这表明在将MLLMs建立为可靠评估者方面仍面临重大挑战。

根据论文中的实证结果与分析(Empirical Results and Analysis),我们可以得出以下结论:

  1. MLLMs在成对比较任务中表现较好:MLLMs在成对比较(Pair Comparison)任务中与人类偏好的一致性较高,尤其是在有明确胜者的情况下。这表明MLLMs在区分和比较不同响应的质量方面具有较好的能力。

  2. 评分评估和批量排名任务中的挑战:MLLMs在评分评估(Scoring Evaluation)和批量排名(Batch Ranking)任务中与人类偏好的一致性较低。这表明MLLMs在这些任务中面临挑战,尤其是在需要更复杂推理和理解的情况下。

  3. 一致性问题:MLLMs在重复评估相同查询时的一致性存在问题。尽管GPT-4V在成对比较任务中表现出较高的一致性,但在评分评估和批量排名任务中一致性显著下降,这表明MLLMs在这些任务中可能缺乏稳定性和可靠性。

  4. 视觉感知对MLLM判断的影响:研究还探讨了视觉感知对MLLM判断的影响。结果显示,即使在没有直接图像输入的情况下,通过提供详细的图像描述,LLMs在多模态判断任务中的表现也有所提高。这表明MLLMs可能缺乏某些类似人类的判断能力,而LLMs在提供全面的任务相关描述时可以有效地判断多模态任务。

  5. 偏见和幻觉问题:MLLMs在判断过程中表现出多种偏见,如自我中心偏见、位置偏见、长度偏见等。此外,还观察到MLLMs在批量排名任务中出现幻觉现象,这可能源于对长期上下文的误解。

  6. 高质量子集的建立:作者通过额外的人类一致性评估,编制了两个高质量的子集:MLLM-as-a-Judge-HQ(高质量)和MLLM-as-a-Judge-HARD(困难)。这些子集可以作为严格的测试,促进MLLMs的发展。

综上所述,MLLMs在某些多模态任务中展现出与人类相似的判断能力,但在其他任务中仍需改进。此外,MLLMs在判断过程中的偏见和幻觉问题需要进一步的研究和解决。这些结论为MLLMs的未来发展提供了重要的研究方向。

注:

在论文中提到的三个评估任务是:

  1. 成对比较(Pair Comparison)任务

    • 这个任务涉及直接比较两个响应,并确定哪一个更优。这通常涉及到评估两个AI助手对同一问题的回答,并选择一个更好的答案。

    • 在这个任务中,MLLMs需要对两个给定的输出进行评价,并提供一个胜者。这个任务的特点是有一个明确的胜者和一个明确的输家,或者在某些情况下,两者可能打成平手。

  2. 评分评估(Scoring Evaluation)任务

    • 在这个任务中,每个单独的响应都会根据一定的标准进行评分,通常是一个从1到5的等级评分系统。

    • MLLMs需要对每个响应的质量进行评估,并给出一个分数。这个任务要求MLLMs能够理解和评价响应的质量,并给出一个量化的评分。

  3. 批量排名(Batch Ranking)任务

    • 这个任务涉及对一系列响应进行系统性的排列,根据给定的指令,将响应按照质量从高到低进行排序。

    • MLLMs需要对多个响应进行综合评估,并确定它们的相对顺序。这个任务没有平手选项,要求MLLMs能够处理更复杂的排序问题。

这三个任务都是评估MLLMs作为“法官”时的判断能力,即它们在理解和评价多模态信息(如图像和文本)方面的能力。这些任务的设计旨在模拟人类在评估和决策时的过程,以检验MLLMs在这些方面的表现是否接近人类水平。

全文结论

本文通过提出MLLM-as-a-Judge基准测试,为MLLMs的评估提供了新的视角。尽管MLLMs在某些任务中表现出与人类判断的一致性,但在其他任务中仍需进一步改进。本文的工作强调了在MLLMs作为可靠评估者方面进行增强和进一步研究的迫切需求。

阅读总结报告

本文介绍了MLLM-as-a-Judge基准测试,旨在评估多模态大型语言模型(MLLMs)在协助法官任务中的能力。通过精心策划的图像-指令对和人类评估者的注释,本文揭示了MLLMs在不同评估任务中的表现,并指出了在评分评估和批量排名任务中与人类偏好的显著差异。此外,本文还探讨了MLLMs在判断过程中的偏见和幻觉问题。这项工作为MLLMs的进一步研究和发展提供了宝贵的见解和资源。

Last updated