[发明专利]一种基于深度学习的信息安全知识图谱的自动构建方法有效
申请号: | 201911069823.9 | 申请日: | 2019-11-05 |
公开(公告)号: | CN110941716B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 李博;左光胜 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 信息 安全 知识 图谱 自动 构建 方法 | ||
1.一种基于深度学习的信息安全知识图谱的自动构建方法,其特征在于,包括以下步骤,步骤1,构建信息安全知识图谱的本体库;步骤2,对收集的数据基于启发式规则的方式进行标注得到实体识别的训练集,并设计了基于Bi-LSTM的模型结构进行学习作为实体识别的模型,从而抽取出文本的实体词;步骤3,基于三元组知识来进行自动标注得到关系抽取的训练集,并设计了基于注意力机制的LSTM结构作为关系抽取的模型,抽取文本中的三元组;本体库包括实体的类型和实体的关系,所述实体类型包括软件,软件供应商,漏洞,漏洞类型,攻击,防御工具,软件的更新,软件的版本,硬件;所述关系包括:影响或者造成威胁、开发与维护、利用、是或者属于的关系、发布或者发行;对本体库的数据集进行标注的具体方式为,首先根据本体库定义的实体类型,对每一种类型的实体收集词汇构成实体词典,然后根据实体词典对文本句子进行标注;所述基于三元组知识来进行自动标注得到训练集的方式为首先基于CVE数据中提取出的字段建立一个三元组的词典,然后对于一个句子中识别出来的实体词,两两去查看是否在三元组词典中,如果在,将这个实体对和该句子作为一个训练样本加入到训练集中,从而构造出一个用来做关系抽取的数据集;
建立基于注意力结构的LSTM描述上下文的具体方式为首先将句子中的词对应到一个向量表示,然后通过Bi-LSTM得到对应于每个词的隐状态Hi,然后与实体词L1和L2的向量和通过注意力层计算一个权重分布,最后得到Hi的加权和Hs,公式如下:
ei=Wembeddingxi;
Hi=[forward_LSTM(ei),backward_LSTM(ei)];
SP=sum_pookling(eL1,eL2);
α=softmax(wT[SP,Hi,dot_product(SP,Hi)]);
Hs=αH;
其中上式中Wembedding对应于每个词的词向量,上式中xi为对应每个词的编号,通过编号在词向量表中我们索引到对应该词的向量,H表示为[H1,H2,...,HT],Hs即为注意力层的输出,其中forward_LSTM和backward_LSTM分别对应于前向和后向的LSTM,上式中ei为每个词对应的词向量,SP对应于实体词对eL1,eL2的词向量和,dot_product表示两个向量的点积,wT为权重;
通过前向神经网络得到每个词语的类别标签的概率分布,然后使用交叉熵作为损失函数进行权重更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911069823.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种刀闸状态非同源确定系统及方法
- 下一篇:秘密数运算转换方法及系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置