本文实验和性能: 作者在受控实验中分析了这些攻击,并发现许多攻击源于LLMs预训练时的编码能力,以及在常见LLM词汇表中存在的奇怪的“故障”标记。实验结果表明,对抗性攻击的光谱远比之前认为的要广泛,这些模型的安全性必须通过全面理解它们的能力 and 局限性来解决。
阅读总结报告: 本文深入研究了LLMs在面对对抗性攻击时的安全性问题,并提出了一种系统化的方法来探索和分类这些攻击。作者通过实验发现,LLMs在预训练时的编码能力和词汇表中的“故障”标记是导致安全问题的关键因素。本文的研究不仅揭示了LLMs在安全性方面的潜在风险,也为未来的研究提供了新的视角和方向。作者强调,为了确保LLMs的安全性,必须全面理解它们的能力 and 局限性,并采取相应的防御措施。