ROBUSTIFYING LANGUAGE MODELS WITH TESTTIME ADAPTATION
Last updated
Last updated
大型预训练语言模型(如BERT和RoBERTa)在多种语言任务上取得了最先进的性能。然而,这些模型对对抗性语言示例(即经过优化以欺骗语言模型,但对人类保持相似语义的句子)却显得脆弱。这些对抗性攻击可能会在模型被用于敏感和安全关键的应用时带来安全风险。
以往的对抗性攻击防御主要集中在训练时,通过在训练中加入预先生成的对抗样本或修改训练目标来提高模型的鲁棒性。然而,这些方法存在以下缺点:
需要大量的计算资源来生成足够的对抗样本。
模型无法适应新的、未知的攻击类型。
训练方法只能在训练任务上实现鲁棒性,无法泛化到新任务。
本文提出了一种在测试时(test-time)增强语言模型鲁棒性的方法。通过动态地适应输入句子,使用遮蔽词(masked words)的预测来反转许多语言对抗性攻击。该方法不需要任何训练,因此可以适用于测试时的新任务,并能适应新的对抗性破坏。
词重要性排名:使用遮蔽语言模型损失作为重要性的度量,对句子中的每个词进行重要性排名。
词替换:根据遮蔽语言模型的预测和词嵌入的语义相似性,替换句子中的词。
提出了一种无需训练即可在测试时增强模型鲁棒性的方法。
该方法能够适应新任务和新的对抗性破坏。
实验结果表明,该方法在两个流行的句子分类数据集上能够修复超过65%的对抗性语言攻击。
实验使用了AG's News和Yelp Polarity数据集,针对BERT模型进行了测试。实验中使用了两种最新的基于文本的对抗性攻击:PWWS和TextFooler。实验结果显示,所提出的Mask-Defense方法能够成功反转75-80%的TextFooler攻击和65-70%的PWWS攻击。
Mask-Defense方法在保持句子语义相似性的同时,能够有效地修复对抗性攻击,且对未被攻击的干净句子的正确分类没有负面影响。
本文提出了一种基于遮蔽语言模型的测试时适应性算法,该算法能够逆转最先进的文本对抗性攻击,并恢复真实标签。实验表明,即使在对句子修改非常严格的情况下,该算法也能取得显著的成果,证明了在语言模型的测试时使用防御措施是一种增强鲁棒性的有力方式。
本文针对大型语言模型在对抗性攻击面前的脆弱性,提出了一种新颖的测试时适应性算法。通过在输入句子中动态适应遮蔽词的预测,该方法能够在不进行额外训练的情况下,有效地对抗和修复对抗性攻击。实验结果证明了该方法的有效性和鲁棒性,为提高语言模型在实际应用中的安全性提供了一种可行的解决方案。