ToViLaG: Your Visual-Language Generative Model is Also An Evildoer

随着大规模视觉-语言生成模型（VLGMs）的发展，它们在多模态图像/文本生成方面取得了显著进步。然而，这些模型可能生成有害内容，如冒犯性文本和色情图像，引发重大的伦理风险。尽管对语言模型的有害退化进行了广泛研究，但视觉-语言生成中的这一问题仍未得到充分探讨。

以往的研究主要集中在语言模型的有害内容生成问题上，而没有直接适用于视觉-语言生成（VLG）的方法和度量。此外，现有的输入过滤方法在防止有害输出方面效果有限，因为无害的输入也可能触发有害的输出。

本文提出了ToViLaG数据集，包含32K有害/无害的文本-图像对和1K可能诱发有害内容的文本。同时，提出了WInToRe，一种针对视觉-语言生成的新毒性度量方法。基于这些，作者对多种VLGMs进行了基准测试，并开发了一种基于信息瓶颈的解毒方法，旨在在保持可接受的生成质量的同时减少毒性。

作者对多种图像到文本（I2T）和文本到图像（T2I）的VLGMs进行了毒性评估。实验结果表明，即使是在相对干净的数据训练下，VLGMs也可能产生比预期更多的有害内容。此外，还模拟了未来模型规模增大和数据不洁情况下的毒性变化。

实验结果揭示了VLGMs在毒性生成方面的脆弱性，并强调了开发解毒方法的紧迫性。解毒方法在减少毒性的同时，能够保持生成质量在可接受范围内。

本文深入探讨了VLGMs的有害退化问题，并提出了一种新的解毒方法。通过构建新的毒性度量和数据集，作者为VLG领域的毒性问题提供了一个系统的解决方案，并为未来的研究奠定了基础。

本文针对视觉-语言生成模型可能产生的有害内容问题进行了深入研究。通过构建新的数据集和毒性度量方法，作者不仅评估了现有模型的毒性水平，还提出了一种有效的解毒方法。这些工作对于理解和减轻VLGMs的伦理风险具有重要意义，并为未来的研究提供了新的方向。

Last updated 1 year ago