Stop Reasoning! When Multimodal LLMs with Chain-of-Thought Reasoning Meets Adversarial Images

研究背景：本研究探讨了多模态大型语言模型（MLLMs）在处理图像理解任务时对对抗性图像的脆弱性。尽管MLLMs在图像理解方面表现出色，但它们仍然容易受到对抗性图像的影响。此外，研究还关注了链式思考（Chain-of-Thought, CoT）推理在MLLMs中的应用，CoT推理不仅提高了模型性能，还通过提供中间推理步骤增强了模型的可解释性。然而，目前对于MLLMs在CoT推理下对抗性鲁棒性的研究还不足，尤其是在MLLMs在面对对抗性图像时推理错误的原因。

过去方案和缺点：以往的研究主要集中在传统的视觉模型上，这些模型容易受到不可见扰动的影响。尽管CoT推理在MLLMs中被广泛探索并提高了性能，但CoT推理在面对对抗性图像时的表现尚未得到充分研究。此外，现有的攻击方法主要针对最终答案，而没有考虑到CoT推理过程中的中间推理步骤。
本文方案和步骤：研究提出了一种新的攻击技术，称为“停止推理攻击”（stop-reasoning attack），该技术有效地绕过了CoT推理带来的鲁棒性增强。研究通过攻击CoT推理的两个特定组成部分（即理由和最终答案）来评估MLLMs的对抗性鲁棒性。研究还通过实验揭示了MLLMs在面对对抗性图像时CoT推理的变化，从而更好地理解它们的推理过程。

本文创新点与贡献：

提出了一种新的攻击方法，即停止推理攻击，专门针对使用CoT推理的MLLMs。
提供了对MLLMs在对抗性图像下CoT推理的深入理解，揭示了在各种对抗性攻击下推理路径的变化。
在两个流行的数据集上使用代表性的MLLMs进行了全面的实验，以验证提出的攻击方法。

本文实验：实验使用了MiniGPT4、OpenFlamingo和LLaVA作为受害者MLLMs，并在AOKVQA和ScienceQA数据集上进行了测试。实验结果表明，使用CoT的MLLMs在对抗性攻击下表现出增强的鲁棒性，但这种增强的鲁棒性可以被提出的停止推理攻击轻易消除。
通过对实验数据的分析得到的结论：

CoT推理在对抗性攻击下只能为MLLMs提供边际的鲁棒性增强。
停止推理攻击是针对使用CoT的MLLMs最有效的攻击方法。
在对抗性图像下，CoT推理的中间步骤可以提供关于模型错误预测的解释。

结论：研究全面调查了CoT对MLLMs鲁棒性的影响，并提出了一种新的攻击方法。尽管CoT通过增加改变关键信息的难度而提供了一些鲁棒性，但这种增强的鲁棒性可以被停止推理攻击轻易消除。此外，CoT推理在简单任务中可能不是必需的，因为它对这些任务的鲁棒性影响不大。

注1：

停止推理攻击（Stop-Reasoning Attack）是一种针对多模态大型语言模型（MLLMs）的新型攻击方法，特别是那些采用链式思考（Chain-of-Thought, CoT）推理的模型。这种攻击的目的是在模型进行推理之前中断其推理过程，迫使模型直接给出答案，从而绕过CoT推理可能带来的鲁棒性增强。

停止推理攻击的实施步骤如下：

预定义答案模板：在攻击开始之前，攻击者会预定义一个特定的答案模板（ttar），这个模板用于引导模型直接输出答案，而不需要经过CoT推理过程。例如，模板可能是“答案是（）[EOS]”。
生成初始扰动图像：攻击者首先对原始图像引入微小的扰动，生成一个初始的对抗性图像。这个扰动需要足够小，以至于人眼无法察觉，同时能够导致模型输出错误的答案。
模型预测和损失计算：使用MLLM对原始图像和问题进行预测，得到一个干净的预测结果（tclean）。然后，将这个干净的预测结果与预定义的答案模板进行比较，计算交叉熵损失（Lch）。
优化扰动：利用MLLM提供的梯度信息，通过优化问题来增加损失，从而生成新的对抗性图像。这个过程通常使用投影梯度下降（Projected Gradient Descent, PGD）方法来实现。
迭代攻击：在每次迭代中，攻击者都会使用新的对抗性图像作为输入，再次进行模型预测。然后，根据预测结果更新对抗性图像，直到模型的输出与预定义的答案模板对齐，即模型直接输出答案而没有经过CoT推理。
停止条件：攻击过程会在满足停止条件时结束，这些条件可能包括达到最大迭代次数或模型输出的答案与预定义的答案模板对齐。

停止推理攻击的核心在于通过精心设计的对抗性图像，迫使模型在没有经过完整的CoT推理过程的情况下直接给出答案。这种方法揭示了即使在CoT推理的帮助下，MLLMs在面对对抗性攻击时仍然可能表现出脆弱性。通过这种攻击，研究者可以更好地理解模型在对抗性环境下的行为，并为未来的防御策略提供指导。

注2：

在多模态大型语言模型（MLLMs）中，链式思考（Chain-of-Thought, CoT）体现在模型处理复杂问题时的推理过程中。CoT是一种推理策略，它允许模型通过一系列中间逻辑步骤来逐步构建最终的答案。这些中间步骤通常被称为“理由”（rationale），它们为模型的最终预测提供了解释性的背景。

在MLLMs中，CoT的体现主要包括以下几个方面：

中间推理步骤：当MLLMs面对需要多步推理的问题时，CoT使得模型能够生成一系列中间推理步骤。这些步骤通常以文本形式出现，描述了模型是如何从问题到答案的推理过程。
增强模型性能：CoT推理通过提供详细的推理路径，帮助模型在复杂任务中提高性能，尤其是在需要逻辑推理或多步骤推理的视觉问答（VQA）任务中。
提高模型可解释性：CoT推理生成的中间步骤为模型的预测提供了透明度，使得研究人员和用户可以理解模型是如何得出特定答案的。这种可解释性对于模型的安全性和可靠性至关重要。
推理过程的可视化：在MLLMs中，CoT推理过程可以通过可视化工具展示出来，使得模型的内部工作机制更加直观。这有助于识别模型在推理过程中可能存在的缺陷或偏见。
对抗性攻击下的鲁棒性：尽管CoT推理提高了模型的鲁棒性，但研究表明，MLLMs在面对特定的对抗性攻击时，CoT推理可能不足以保护模型免受错误预测的影响。例如，停止推理攻击就是针对CoT推理的一种攻击方法，它通过中断推理过程来绕过CoT推理的保护。

在实际应用中，CoT推理通常通过特定的提示（prompt）或指令来引导模型执行，例如，模型可能会被要求在给出最终答案之前，先生成一个解释其推理过程的文本序列。这种方法使得MLLMs能够在处理视觉和语言任务时，展现出更接近人类思考方式的推理能力。

阅读总结报告：本研究深入探讨了多模态大型语言模型（MLLMs）在面对对抗性图像时的鲁棒性问题，并特别关注了链式思考（CoT）推理的作用。研究提出了一种新的攻击方法——停止推理攻击，该方法能够有效地绕过CoT推理带来的鲁棒性增强。实验结果表明，尽管CoT推理在一定程度上提高了MLLMs的鲁棒性，但这种增强的鲁棒性在面对停止推理攻击时并不显著。此外，研究还揭示了在对抗性攻击下MLLMs的推理过程，为未来研究提供了宝贵的见解。研究的局限性在于，所有提出的攻击方法都依赖于一阶梯度，这限制了这些攻击方法在实际应用中的普遍性和适用性。

PreviousTHE WOLF WITHIN: COVERT INJECTION OF MALICE INTO MLLM SOCIETIES VIA AN MLLM OPERATIVE NextAgent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast

Last updated 1 year ago