[发明专利]一种网络空间安全领域知识图谱的构建与存储方法有效
申请号: | 202010290298.X | 申请日: | 2020-04-14 |
公开(公告)号: | CN111428054B | 公开(公告)日: | 2022-11-01 |
发明(设计)人: | 周玉金;孙治;刘正军;张志勇;李春林;陈剑锋;徐锐;饶志宏 | 申请(专利权)人: | 中国电子科技网络信息安全有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/31;G06F40/279 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 管高峰 |
地址: | 610207 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 空间 安全 领域 知识 图谱 构建 存储 方法 | ||
1.一种网络空间安全领域知识图谱的构建与存储方法,其特征在于,根据不同数据源进行知识图谱构建与存储:
对于结构化数据,定义对应的转换规则直接将结构化数据转换为多元组知识存入知识图谱;
对于半结构化数据、非结构化数据,对半结构化数据和/或非结构数据进行数据预处理得到有效文本数据,对有效文本数据进行知识抽取,将知识抽取结果与已构建的知识图谱中的多元组知识对比验证,进行实体对齐,并进行多元组知识转换,存入知识图谱,完成知识图谱的构建;
所述知识抽取包括,通过XLNet预训练模型与已建知识图谱进行微调训练,训练过程中针对输入的训练语料,根据训练语料所提及的网络安全实体名称连接已建知识图谱来查询多元组知识,同时将输入的语料与多元组知识进行混合编码,并采用位置向量来区分多元组知识与输入语料,训练过程则是针对混合内容向量与位置向量的自编码学习,最终分别训练出实体识别模型和关系抽取模型,分别基于实体识别模型和关系抽取模型进行网络空间安全实体的识别及实体间关系的抽取。
2.根据权利要求1所述的网络空间安全领域知识图谱的构建与存储方法,其特征在于,所述数据预处理的具体方法:
对于半结构化数据,采用正则表达式对半结构化数据进行筛选,去除非文本内容和与网络空间安全无关的内容;对筛选后的半结构化数据提取有效文本数据;
对于非结构化数据,进行数据清洗、去除多余标点符号、停用词,得到有效文本数据。
3.根据权利要求1所述的网络空间安全领域知识图谱的构建与存储方法,其特征在于,所述实体对齐具体包括:将网络空间安全实体、实体关系与已构建的知识图谱中的多元组知识进行验证,若知识图谱中已存在该实体,则验证该实体间的关系是否冲突及属性是否完备,完成实体属性的合并及关系冲突检测;若知识图谱中不存在该实体,则人工检查实体及关系的正确性。
4.根据权利要求1所述的网络空间安全领域知识图谱的构建与存储方法,其特征在于,实体识别模型由Input层、Embedding层、XLNet层及CRF层组成,
所述Input层用于输入文本序列,根据序列中的实体名称查询已构建的知识图谱中相关联实体的多元组知识信息,并将输入文本序列与知识信息融合为整体内容;
所述Embedding层将整体内容作为内容编码向量;将文本序列与知识信息融合后的序列位置作为位置编码向量;
所述XLNet层采用transformer-XL作为每层网络的编码器,针对内容编码向量与位置编码向量进行自编码学习;
所述CRF层连接XLNet的最后一层隐状态编码输出层,利用概率图模型获取最优化实体标注序列。
5.根据权利要求1所述的网络空间安全领域知识图谱的构建与存储方法,其特征在于,关系抽取模型包括由Input层、Embedding层、XLNet层及Softmax全连接层组成,
所述Input层用于输入文本序列,根据序列中的实体名称查询已构建的知识图谱中相关联实体的多元组知识信息,并将输入文本序列与知识信息融合为整体内容;
所述Embedding层将整体内容作为内容编码向量;将文本序列与知识信息融合后的序列位置作为位置编码向量;
所述XLNet层采用transformer-XL作为每层网络的编码器,针对内容编码向量与位置编码向量进行自编码学习;
所述Softmax全连接层连接XLNet的最后一层隐状态编码输出层,通过Softmax计算实体关系概率来分类网络空间安全实体关系。
6.根据权利要求4或5所述的网络空间安全领域知识图谱的构建与存储方法,其特征在于,所述自编码学习具体方法为:设XLNet层为M层,每一层将上一层的位置编码向量及内容编码向量赋值于Attention机制中的查询向量Q、键K及值V的矩阵向量,计算本层位置编码向量与内容编码向量逐层计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技网络信息安全有限公司,未经中国电子科技网络信息安全有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010290298.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电涌保护器
- 下一篇:用于检测12种ALK基因融合突变的试剂盒及检测方法