Prompted Contextual Vectors for Spear-Phishing Detection
Last updated
Last updated
Spear-phishing攻击是一种针对特定个人或组织的网络钓鱼攻击,它通过个性化的电子邮件或其他消息类型来获取敏感信息或通过安装恶意软件来破坏目标设备。随着大型语言模型(LLMs)的发展,它们在自动化创建复杂的spear-phishing电子邮件和目标侦察过程中的应用,使得这种攻击的威胁性大大增加。
以往的spear-phishing检测研究主要采用归因方法,即尝试将电子邮件归类到已知的spear-phishing活动或可信作者。这种方法依赖于已知的spear-phishing活动样本,限制了其在检测未知活动时的可扩展性和有效性。此外,传统的方法依赖于基本的自然语言处理(NLP)特征提取技术,这些技术容易受到概念漂移的影响,且解释性有限。
本文提出了一种基于LLMs的新文档向量化方法,通过提示LLMs回答关于电子邮件内容的人类设计问题,量化电子邮件中常见说服原则的存在,从而为下游的监督机器学习模型生成提示性上下文文档向量。这种方法利用了LLMs的推理能力,而不是仅仅依赖于传统的NLP技术。
提出了一种创新的文档向量化方法,利用LLMs的推理能力生成提示性上下文文档向量。
发布了一个独特的、高质量的spear-phishing电子邮件数据集,供研究社区使用。
证明了所提出方法在检测LLM生成的spear-phishing电子邮件方面的有效性,即使这些电子邮件不在ML分类器的训练集中。
实验使用了一个由合作公司开发的专有系统生成的独特数据集,该系统自动化了目标侦察过程和spear-phishing电子邮件的创建。实验结果表明,所提出的方法在检测LLM生成的spear-phishing电子邮件方面取得了91%的F1分数。
实验结果表明,所提出的方法在生成信息丰富的表示向量方面优于现有的文档向量化方法,即使是简单的k-最近邻(kNN)分类器也能有效地识别LLM生成的spear-phishing电子邮件。
本文提出的基于LLMs的文档向量化方法在spear-phishing检测任务中表现出色,尤其是在检测LLM生成的电子邮件方面。这种方法的提出为未来在这一领域的研究提供了新的工具和方法。
本文针对spear-phishing攻击的检测提出了一种新颖的方法,该方法利用LLMs的推理能力来生成能够反映电子邮件内容上下文的向量。通过实验验证,这种方法在检测LLM生成的spear-phishing电子邮件方面具有较高的准确性。此外,作者还发布了一个高质量的spear-phishing电子邮件数据集,为研究社区提供了宝贵的资源。这种方法的提出不仅对spear-phishing检测领域有重要意义,也为其他文档分类任务提供了新的思路。