Visual Explanations of Image-Text Representations via Multi-Modal Information Bottleneck Attributio

1. 研究背景

视觉-语言预训练模型(VLPMs)在解决广泛的视觉-语言问题方面取得了显著成功,但它们在安全关键领域的应用受到可解释性不足的限制。为了提高如CLIP等视觉-语言模型的可解释性,本文提出了一种多模态信息瓶颈(M2IB)方法,该方法学习压缩无关信息的同时保留相关的视觉和文本特征的潜在表示。

2. 过去方案和缺点

现有的归因方法主要关注单模态模型,而对VLPMs的归因方法研究较少。此外,常用的单模态归因方法需要访问真实标签,这在没有真实数据可用时限制了对VLPMs表示的审计。

3. 本文方案和步骤

本文提出了一种基于信息瓶颈原理的多模态归因方法,不需要真实标签即可识别图像和文本输入中的关键特征。通过定义一个多模态信息瓶颈目标,并使用变分近似来获得可处理的优化目标,然后针对一组归因参数进行优化。

4. 本文创新点与贡献

  • 提出了一种多模态信息瓶颈原理,并用它来开发一种多模态信息瓶颈归因方法,以提高视觉-语言预训练模型的可解释性。

  • 在包括医疗保健数据在内的多个数据集上进行了广泛的实证评估,证明了多模态信息瓶颈归因在定量和定性上显著优于现有的基于梯度、基于扰动和基于注意力的归因方法。

5. 本文实验

使用CLIP模型在四个图像-标题数据集上评估了所提出的归因方法,包括广泛使用的图像标题数据集和医疗数据集。实验结果表明,M2IB归因能够成功识别图像和文本输入中的重要特征。

6. 实验结论

M2IB归因在零样本检测任务中取得了平均IoU为22.59%的成绩,优于所有基线模型。此外,通过降低信心度测试和增加信心度测试,进一步证明了M2IB归因的有效性。

7. 全文结论

本文开发的多模态信息瓶颈(M2IB)归因方法提高了视觉-语言预训练模型的归因准确性和可解释性。作者希望这项工作将鼓励未来研究多模态信息理论归因方法,以帮助提高VLPMs的可解释性和可信度,并允许它们在可解释性至关重要的安全关键领域中应用。

阅读总结

本文针对视觉-语言预训练模型的可解释性问题,提出了一种新颖的多模态信息瓶颈归因方法。该方法不仅提高了模型的可解释性,而且在不需要真实标签的情况下,能够审计模型的表示。通过在多个数据集上的实验,作者证明了M2IB归因方法在定量和定性上都优于现有的归因方法。这项工作为提高VLPMs的可信度和在安全关键领域的应用提供了有价值的工具。

Last updated