Assessment of Multimodal Large Language Models in Alignment with Human Values
Last updated
Last updated
1. 研究背景
大型语言模型(LLMs)旨在成为与人类价值观相符的多功能助手,遵循有用(helpful)、诚实(honest)、无害(harmless,简称hhh)的原则。然而,多模态大型语言模型(MLLMs)尽管在感知和推理任务上表现出色,但其与人类价值观的一致性尚待探索。这主要是因为在视觉世界中定义hhh维度的复杂性,以及收集准确反映现实世界情境的相关数据的困难。
2. 过去方案和缺点
过去对MLLMs的评估主要集中在单一的感知或推理任务上,缺乏全面评估模型在hhh原则上的表现。现有基准测试倾向于关注任务性能,而忽视了评估模型在更广泛情境中的人类价值观一致性。此外,自动化方法(如基于GPT的生成)可能引入偏见,无法准确反映现实世界情境。
3. 本文方案和步骤
为了解决这一差距,作者介绍了Ch3Ef,这是一个全面评估数据集和策略,用于评估与人类期望一致性。Ch3Ef数据集包含1002个人工标注的数据样本,涵盖12个领域和基于hhh原则的46个任务。作者还提出了一个统一的评估策略,支持在不同情境和不同视角下的评估。
4. 本文创新点与贡献
提供了首个专门设计用于评估MLLMs与人类价值观一致性的全面评估数据集Ch3Ef。
提出了一个基于hhh原则的分类法,具有三个层次的维度结构。
开源数据集,并随着新的学术研究领域或社会关切的出现而不断扩展数据集的维度。
建立了一个模块化的评估策略,包含三个组件:指令(Instruction)、推理器(Inferencer)和度量(Metric),支持不同视角下的不同评估方法。
5. 本文实验
作者对15个MLLMs在11个不同情境下进行了评估,这些情境涵盖了从A1到A3的光谱。实验使用了不同的评估配方(Recipe),包括指令、推理器和度量的具体选择,以评估不同维度,如位置、问答性能、情境学习性能、校准和与人类价值观的一致性。
6. 实验结论
MLLMs在A1和A2场景中表现出不一致的性能,显示出核心视觉技能的相对独立性和任务间的显著权衡。
Ch3Ef数据集对开源MLLMs来说是一个挑战,尤其是在诚实和无害的维度上,大多数模型的得分远低于A1-A2场景。
GPT-4V在诚实和无害的维度上得分超过90,但在有用的维度上,得分略高于60,表明在安全性和参与度之间需要找到微妙的平衡。
7. 全文结论
本文通过引入Ch3Ef数据集和评估策略,为评估MLLMs与人类价值观的一致性提供了基础,并为未来的研究和开发提供了见解。作者强调了进一步研究的必要性,以提高MLLMs生成能力的评估精度,并强调了在评估策略中可能无意中隐藏有害内容的风险。
本文的核心贡献在于提出了Ch3Ef,这是一个针对MLLMs与人类价值观一致性评估的综合数据集和策略。通过人工标注的样本和多维度的分类法,Ch3Ef为MLLMs的评估提供了一个全面的框架。此外,作者提出的评估策略具有模块化、可扩展性和灵活性的特点,能够适应不同的评估方法和场景。实验结果揭示了MLLMs在不同任务和维度上的性能,突出了在提高与人类价值观一致性方面的挑战和机遇。作者的这项工作不仅为MLLMs的评估提供了新的工具和方法,也为未来的研究指明了方向,尤其是在提高模型的安全性和可靠性方面。