TOWARDS UNDERSTANDING THE INTERPLAY OF GENERATIVE ARTIFICIAL INTELLIGENCE AND THE INTERNET
Last updated
Last updated
随着生成性人工智能(AI)工具(如DALL-E、MidJourney或ChatGPT)的快速普及,这些技术的社会影响成为公众辩论的焦点。这些工具依赖于互联网上大量公开可用的数据(文本和图像),并且它们本身也成为了内容创造者,为训练未来模型的数据集做出贡献。因此,未来的生成性AI工具将使用人类创造和AI生成的内容的混合进行训练,这可能导致生成性AI与公共数据存储库之间的潜在反馈循环。
以往的研究没有充分考虑AI生成内容对训练数据集的潜在影响。虽然AI生成的数据可以用于数据稀缺的应用场景,但它也可能导致数据集质量的下降。此外,现有的检测AI生成内容的方法面临挑战,因为随着更多AI模型的出现,检测变得更加复杂。
本文提出了一个简单的交互模型,通过使用不同的图像数据集训练简单的扩散模型,并进行一系列实验来评估AI生成器随时间的演变。研究者们假设了一个最坏的情况,即AI工具的训练集完全由前一个版本的AI工具生成,以放大交互效应。
本文的创新之处在于探索了生成性AI模型与互联网之间的相互作用,并提出了一个交互模型来模拟这种反馈循环。此外,通过实验评估了这种交互对生成图像质量和多样性的潜在影响,这是对现有研究的补充。
实验使用了两种类型的扩散模型:扩散隐式扩散模型和带有分类器自由扩散指导的标准扩散模型。实验在MNIST、Oxford 102 Flower和Caltech-UCSD Birds-200-2011数据集上进行。通过计算不同代的生成模型的相关度量,评估了图像的保真度和多样性。
实验结果表明,随着时间的推移,图像的质量和多样性可能会下降,这表明包含AI创建的数据可能对未来的生成模型产生不良效果。在没有指导的情况下,模型在几代后甚至无法生成可识别的图像,导致模型退化甚至崩溃。
本文研究了生成性AI模型与互联网之间的相互作用,并指出这种反馈循环可能会随着时间的推移产生不良效果。尽管基于一个简单的交互模型,但结果证实了这种交互应该被仔细研究以理解其影响。未来的研究需要更复杂和现实的交互模型,以及更复杂的生成性AI模型和额外的数据集,以更好地理解这种交互的长期效果。
本文探讨了生成性AI与互联网之间的潜在反馈循环及其可能的长期影响。通过在不同数据集上进行的实验,研究者们发现,随着AI生成内容的累积,生成模型可能会经历退化和多样性的损失。这项工作强调了在AI模型训练中考虑AI生成数据的重要性,并为未来的研究方向提供了指导。