Membership Inference Attacks against Large Language Models via Self-prompt Calibration
Last updated
Last updated
随着大型语言模型(LLMs)的普及,它们在多种复杂应用场景中展现出卓越的能力,例如聊天机器人、代码生成、文章合写等。然而,LLMs在提供便利的同时,也带来了潜在的隐私风险。会员推断攻击(Membership Inference Attacks, MIA)旨在推断目标数据记录是否被用于模型训练,这对于评估LLMs的隐私风险至关重要。
现有的MIA主要分为两类:无需参考模型的攻击(reference-free)和基于参考模型的攻击(reference-based)。这些方法基于一个假设:训练记录被抽样的概率更高。但这一假设严重依赖于目标模型的过拟合,而过拟合可以通过多种正则化方法得到缓解,并且在大规模语言模型(LLMs)的泛化能力下会被削弱。此外,基于参考的攻击虽然在理论上有效,但其性能高度依赖于与训练数据集相似的参考数据集,这在实际情况下通常难以获得。
为了解决现有MIA在实际LLMs中的局限性,本文提出了一种基于自校准概率变化的会员推断攻击(Self-calibrated Probabilistic Variation, SPV-MIA)。具体步骤包括:
利用LLMs在训练过程中不可避免的记忆效应,而不是过拟合,作为更可靠的会员信号。
通过自提示方法(self-prompt approach),使用目标LLM自身生成的数据集来微调参考模型,从而获得与训练数据集分布相似的数据集。
提出了一种新的会员信号,基于记忆而非过拟合,通过二阶导数测试检测局部最大值点。
引入自提示方法,通过简短文本提示目标LLM生成文本,构建与微调数据集分布相似的数据集。
在四个代表性的LLMs和三个数据集上进行了广泛的实验,证明了SPV-MIA在攻击性能上相比于现有基线提高了约23.6%。
实验在四个代表性的LLMs(GPT-2, GPT-J, Falcon, LLaMA)和三个数据集(Wiki, AG News, Xsum)上进行。实验结果表明,SPV-MIA在AUC(Area Under the Curve)上相比于最好的基线提高了约23.6%。
SPV-MIA在多个微调后的LLMs和数据集上揭示了显著更高的隐私风险,与现有的MIA相比有显著的改进。此外,实验还探讨了不同因素对SPV-MIA性能的影响,如参考模型的质量、自提示文本的来源和长度、参考数据集的规模等。
本文通过提出SPV-MIA,揭示了现有MIA方法在实际应用中的不足,并展示了SPV-MIA在多种挑战性场景下的有效性。研究表明,即使在严格的使用限制下,SPV-MIA也能有效地揭示LLMs的隐私风险。
本文针对当前LLMs在隐私保护方面的挑战,提出了一种新的MIA方法SPV-MIA。通过自校准概率变化和自提示方法,SPV-MIA能够有效地评估和利用LLMs在微调过程中的隐私风险。实验结果证明了SPV-MIA在多个维度上相比于现有方法的优越性,为理解和防御LLMs的隐私风险提供了新的视角和工具。