Stealing Part of a Production Language Model
Last updated
Last updated
本研究的背景是关于如何从黑盒生产语言模型中提取精确、非平凡的信息。这些模型,如OpenAI的ChatGPT或Google的PaLM-2,通常是通过API接口对外提供服务,而这些接口并不公开模型的内部结构和参数。这种保密性通常归因于模型训练的高成本和大规模模型的安全性问题。然而,尽管模型的权重和内部细节不公开,但通过API接口,模型本身是可以被访问的。因此,研究者提出了模型窃取攻击(model-stealing attack)的概念,旨在通过API查询来提取模型权重。
以往的模型窃取攻击主要针对具有ReLU激活函数的深度神经网络,并且通常采用自下而上的方法重建模型,从输入层开始。这些方法在处理大型语言模型时遇到了困难,因为这些模型的特点包括:(1)接受token作为输入,使得有限差分变得不切实际;(2)使用ReLU以外的激活函数;(3)包含当前攻击无法处理的架构组件,如注意力机制、层归一化、残差连接等;(4)比以往提取的模型大几个数量级;(5)只暴露有限精度的输出。
本文提出了一种新的攻击方法,可以直接应用于黑盒语言模型,并允许我们恢复Transformer语言模型的完整嵌入投影层。攻击不是从输入层开始自下而上重建模型,而是自上而下直接提取模型的最后层。具体步骤包括:
利用API查询模型,获取隐藏层的输出。
通过目标查询,提取嵌入维度或最终权重矩阵。
通过SVD等数值方法,计算查询响应矩阵的奇异值,从而确定隐藏维度。
通过特定算法,恢复最终的嵌入投影矩阵W。
本文的主要创新点和贡献包括:
提出了第一个能够从黑盒生产语言模型中提取信息的模型窃取攻击。
证明了可以以低成本(不到20美元)提取OpenAI的ada和babbage语言模型的整个投影矩阵。
确认了这些黑盒模型具有1024和2048的隐藏维度。
提出了可能的防御措施和缓解策略,并讨论了未来工作可能带来的影响。
实验部分,作者对多个OpenAI模型进行了攻击,包括ada、babbage和gpt-3.5-turbo等。通过平均平方误差(MSE)衡量了提取嵌入层的准确性,并证明了攻击的有效性。此外,还对不同量化级别的模型进行了测试,以评估量化对攻击的影响。
实验结果表明,本文提出的攻击方法能够有效地从生产模型中提取嵌入投影层,且在不同量化级别下,攻击的效果没有显著差异。这说明了攻击的鲁棒性,并为未来的防御策略提供了实验依据。
本文展示了通过API接口对黑盒生产语言模型进行模型窃取攻击是可行的,并且能够以较低的成本提取关键信息。这一发现对于理解和加强大型语言模型的安全性具有重要意义,并为未来的研究提供了新的方向。
本研究提出了一种新的模型窃取攻击方法,能够从黑盒生产语言模型中提取嵌入投影层。通过自上而下的攻击策略,研究者成功地从OpenAI的ada和babbage模型中提取了整个投影矩阵,并确认了模型的隐藏维度。此外,本文还探讨了可能的防御措施,并通过对不同量化级别的模型进行测试,证明了攻击的鲁棒性。这项工作不仅揭示了大型语言模型的潜在安全风险,也为未来的研究和防御策略提供了宝贵的经验和数据。