[发明专利]基于知识图谱的网络安全数据组织方法及计算机存储介质在审
申请号: | 201910614670.5 | 申请日: | 2019-07-09 |
公开(公告)号: | CN110321394A | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 张阳;王佳贺;魏松杰;袁德砦 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;H04L29/06 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210002 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络安全 数据组织 计算机存储介质 知识库 图谱 数据关联性 实体关系 实体识别 特征模板 构建 向量 抽取 预处理 上下文信息 安全数据 表现形式 参数共享 海量网络 数据生成 数据知识 过滤 清洗 采集 制定 | ||
1.一种基于知识图谱的网络安全数据组织方法,其特征在于,包括以下步骤:
(1)采集海量网络安全数据,通过清洗和过滤的方式进行预处理;
(2)构建网络安全知识库;
(3)根据数据的上下文信息制定特征模板,并结合特征模板将数据生成字向量;
(4)将字向量输入BiLSTM模型,通过底层参数共享完成网络安全实体识别和网络安全实体关系抽取;
(5)将步骤(4)中网络安全实体识别和网络安全实体关系抽取的结果与所述网络安全知识库结合,构建网络安全数据知识图谱。
2.根据权利要求1所述的基于知识图谱的网络安全数据组织方法,其特征在于:步骤(1)中所述的网络安全数据包括从网络资产信息、网络威胁信息、网络状态信息、网络脆弱性信息和安全事件信息五个方面进行采集。
3.根据权利要求1所述的基于知识图谱的网络安全数据组织方法,其特征在于,步骤(1)中的预处理具体为:
(1)选择格式规范的原始数据作为过滤规则的制订依据,并根据其定义对应的正则表达式,筛查出不规范的数据值、数据类型和数据格式的数据,予以纠正;
(2)采用Bloom-Filter算法去除重复的数据;
(3)采用均值插补的方式补足残缺数据值,对于定类数据采用众数进行插补,对于定量数据采用均值进行插补。
4.根据权利要求1所述的基于知识图谱的网络安全数据组织方法,其特征在于:步骤(2)中所述网络安全知识库包括物理安全、主机安全、网络结构安全、应用安全和数据安全五个本体。
5.根据权利要求1所述的基于知识图谱的网络安全数据组织方法,其特征在于:所述的特征模板为当前识别字和当前识别字前后所设置数目的识别字所组成的识别字的集合。
6.根据权利要求1所述的基于知识图谱的网络安全数据组织方法,其特征在于,步骤(3)中的数据生成字向量的方法具体为:按照特征模板读取数据,通过Bert模型生成字向量。
7.根据权利要求1所述的基于知识图谱的网络安全数据组织方法,其特征在于,步骤(4)中完成网络安全实体识别和网络安全实体关系抽取的方法为:将字向量输入BiLSTM模型进行网络安全实体识别,所述BiLSTM模型包括输入层、特征模板、字嵌入层、BiLSTM层及CRF层,然后将所述BiLSTM模型的CRF层更换为Attention层和Softmax层进行输出,完成网络安全实体关系抽取。
8.根据权利要求1所述的基于知识图谱的网络安全数据组织方法,其特征在于:步骤(5)所述的网络安全数据知识图谱包括两部分,其一是通用知识图谱,包括先前已知的网络漏洞信息、攻击威胁信息及安全公告信息;其二是扩展知识图谱,主要包括网络节点信息、网络拓扑信息、网络连通信息、网络运维信息。
9.根据权利要求1所述的基于知识图谱的网络安全数据组织方法,其特征在于,步骤(5)还包括将网络安全数据知识图谱采用OrientDB图形数据库进行存储。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于:所述计算机程序在被计算机处理器执行时实现权利要求1至9任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910614670.5/1.html,转载请声明来源钻瓜专利网。