[发明专利]一种应用在网络安全领域的实体抽取方法有效
申请号: | 202110333374.5 | 申请日: | 2021-03-29 |
公开(公告)号: | CN112989831B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 陆以勤;陈帅豪;覃健诚;谢树禄;李智鹏;洪炜妍;陈嘉睿 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/242;G06F16/36;G06N3/0442;G06N3/0455;G06N3/047 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 雷芬芬 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用 网络安全 领域 实体 抽取 方法 | ||
本发明公开一种应用在网络安全领域的实体抽取方法,包括:将分词后的网络安全文本数据输入已训练好的word2vec模型,得到网络安全领域词向量;对文本数据进行人工语料标注,构建网络安全数据集;将网络安全数据集输入SecurityBERT模型,得到字符级向量;对网络安全领域词向量和字符级向量进行融合;将BiLSTM模型的输出输入自注意力层,使用自注意力机制对字符向量进行局部关键网络安全字词特征增强,获得语义信息。本发明使用BiLSTM模型和自注意力机制进一步建模,得到上下文语义和捕捉局部关键信息,提高了网络安全领域实体抽取性能,取得更好的精确率、召回率和F1值。
技术领域
本发明涉及网络安全领域,特别涉及一种应用在网络安全领域的实体抽取方法。
背景技术
互联网技术快速发展和广泛应用,极大促进了社会的繁荣进步,但与此同时网络空间环境也日益变得复杂严峻。各类型网络攻击、勒索病毒、木马、后门程序、安全漏洞等对网络空间造成严重威胁。网络安全事件的频发给国家、企业和人民造成了经济损失,严重影响社会的稳定。
网络空间中包含着海量有价值的安全信息,例如网络安全日志、告警信息和流量数据、还有从安全论坛或网址中能获取到包括系统日志、攻击事件、安全博客、安全情报、漏洞库等重要的安全数据。这些海量的安全数据存在着巨大的价值,如何从海量的、碎片化的网络安全数据中提取出有效的安全信息是网络安全领域的重要研究方向。因此面向网络安全领域的实体抽取技术应运而生。
网络安全实体抽取技术是一种面向特定领域的实体抽取技术,通常指的是从非结构化的网络安全文本数据中提取具有网络安全相关语义的实体,例如:攻击者、漏洞、病毒木马、攻击方法、软件等等。实体抽取任务通常包含了本体设计、数据的收集、清洗及构建、文本分词、实体抽取并分类等相关任务。网络安全领域的数据相比传统领域存在着数据集较少,中文英文混合,大小写混合、数字混杂等各种不规则特点,而且新实体增加及变化比较频繁,类别较多,具有较强的专业领域特征,同一实体甚至存在语义多样性和模糊性等特点。而传统的word2vec预训练方法、RNN、LSTM模型、CRF模型实体抽取模型算法难以准确识别,不能很好的适应网络安全领域。
发明内容
本发明提供一种应用在网络安全领域的实体抽取方法,以解决现有方法在网络安全领域实体抽取精确率、召回率、F1值性能指标较低的问题。
为了实现上述目的,本发明实施例采用的技术方案如下:
一种应用在网络安全领域的实体抽取方法,包括:采集网络安全领域的非结构化文本数据,并根据文本数据构建网络安全字典;对文本数据进行预处理并分词;并将分词后的网络安全文本数据输入已训练好的word2vec模型或Glove模型,得到网络安全领域词向量;对文本数据进行人工语料标注,构建网络安全数据集;将网络安全数据集输入已进行领域预训练的SecurityBERT模型,得到字符级向量;对网络安全领域词向量和SecurityBERT模型输出的字符级向量进行融合,得到网络安全词级增强的字向量;将字向量序列输入BiLSTM模型进一步建模,BiLSTM模型输出包含上下文语义特征信息的字符向量;将BiLSTM模型的输出输入自注意力层,使用自注意力机制对字符向量进行局部关键网络安全字词特征增强,获得语义信息;将自注意力层的输出和BiLSTM模型的输出融合后依次输入到softmax层和条件随机场CRF模型,得到最终的标签序列,即为实体抽取结果。
优选地,对文本数据进行预处理并分词包括:使用python和beautifulsoup HTML解析器解析html网页,去除无用的标签信息,保留核心的网络安全相关文本;对网络安全相关文本进行去除特殊字符、简繁体转换、大小写转换;使用分词工具对文本数据分词。
优选地,对文本数据进行人工语料标注,构建网络安全数据集包括:设计网络安全领域的本体模型,得到网络安全实体的类别;根据本体模型,使用brat工具对文本进行结构化标注,把结构化标注的结果转换为BIO或BIOES标注格式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110333374.5/2.html,转载请声明来源钻瓜专利网。