大模型安全笔记

Safety Fine-Tuning at (Almost) No Cost: ABaseline for Vision Large Language Models

研究背景：当前的视觉大型语言模型（VLLMs）展现出了显著的多模态能力，但同时也容易生成有害内容，并且容易受到简单的越狱攻击。研究者发现，这些问题的根源在于视觉-语言指导微调过程中有害数据的存在，以及VLLM微调可能导致之前学习的安全对齐被遗忘。

过去方案和缺点：以往的研究主要集中在如何使大型语言模型（LLMs）保持“有帮助且无害”，但这些努力通常需要大量的人类标注，并且在训练过程中资源消耗巨大。此外，现有的安全微调方法主要针对文本数据，没有考虑到VLLMs的多模态特性，即同时处理视觉和语言输入。
本文方案和步骤：研究者首先收集并策划了一个视觉-语言安全指导数据集VLGuard，该数据集涵盖了多种有害类别。然后，他们展示了将这个数据集集成到标准的视觉-语言微调中，或者用于事后微调，可以有效地使VLLMs安全对齐。这种对齐在最小化或甚至增强模型的有用性的同时实现。
本文创新点与贡献：

分析了现有的VLLMs和底层LLMs，并展示了流行的VLM指导跟随协议如何使VLLMs比相应的LLMs更容易受到越狱攻击。
构建了第一个用于VLLMs安全微调的数据集VLGuard，并提供了一个测试套件用于评估。
提出了两种VLLM安全对齐策略：事后微调和混合微调。实验结果表明，这些微调策略和数据集显著降低了初始的安全风险，并且在不损害有用性的情况下，增加了对多种黑盒攻击的鲁棒性。

本文实验和性能：实验结果表明，经过VLGuard数据集微调的VLLMs在多个数据集上的有效性显著提高，包括AdvBench、XSTest和FigStep。微调后的模型在保持或提高有用性的同时，显著降低了生成有害内容的成功率。此外，通过人类评估，微调后的模型在安全和有用性方面的表现与原始模型相比有显著提升。
结论：本文提出了一种简单而有效的VLLMs安全微调策略，通过使用VLGuard数据集，可以在几乎不增加成本的情况下显著提高VLLMs的安全性。这种微调方法不仅适用于现有的VLLMs，也可以用于训练新模型或保护预训练的VLLMs。研究者鼓励将VLGuard数据集整合到未来VLLMs的训练中，以提高其安全性。

阅读总结报告：本文针对VLLMs在安全性方面的挑战，提出了一种新的安全微调策略。通过构建VLGuard数据集，研究者展示了如何有效地提高VLLMs在处理有害内容时的安全性，同时保持或增强其有用性。这种方法的提出，为VLLMs的安全训练提供了一种新的资源，并且对于未来VLLMs的安全性研究和实践具有重要的指导意义。

PreviousRemoving NSFW Concepts from Vision-and-Language Models for Text-to-Image Retrieval and Generation NextPartially Recentralization Softmax Loss for Vision-Language Models Robustness

Last updated 1 year ago