[发明专利]一种基于深度学习的信息安全知识图谱的自动构建方法有效

专利信息
申请号: 201911069823.9 申请日: 2019-11-05
公开(公告)号: CN110941716B 公开(公告)日: 2023-07-18
发明(设计)人: 李博;左光胜 申请(专利权)人: 北京航空航天大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36
代理公司: 北京中创阳光知识产权代理有限责任公司 11003 代理人: 尹振启
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 信息 安全 知识 图谱 自动 构建 方法
【权利要求书】:

1.一种基于深度学习的信息安全知识图谱的自动构建方法,其特征在于,包括以下步骤,步骤1,构建信息安全知识图谱的本体库;步骤2,对收集的数据基于启发式规则的方式进行标注得到实体识别的训练集,并设计了基于Bi-LSTM的模型结构进行学习作为实体识别的模型,从而抽取出文本的实体词;步骤3,基于三元组知识来进行自动标注得到关系抽取的训练集,并设计了基于注意力机制的LSTM结构作为关系抽取的模型,抽取文本中的三元组;本体库包括实体的类型和实体的关系,所述实体类型包括软件,软件供应商,漏洞,漏洞类型,攻击,防御工具,软件的更新,软件的版本,硬件;所述关系包括:影响或者造成威胁、开发与维护、利用、是或者属于的关系、发布或者发行;对本体库的数据集进行标注的具体方式为,首先根据本体库定义的实体类型,对每一种类型的实体收集词汇构成实体词典,然后根据实体词典对文本句子进行标注;所述基于三元组知识来进行自动标注得到训练集的方式为首先基于CVE数据中提取出的字段建立一个三元组的词典,然后对于一个句子中识别出来的实体词,两两去查看是否在三元组词典中,如果在,将这个实体对和该句子作为一个训练样本加入到训练集中,从而构造出一个用来做关系抽取的数据集;

建立基于注意力结构的LSTM描述上下文的具体方式为首先将句子中的词对应到一个向量表示,然后通过Bi-LSTM得到对应于每个词的隐状态Hi,然后与实体词L1和L2的向量和通过注意力层计算一个权重分布,最后得到Hi的加权和Hs,公式如下:

ei=Wembeddingxi

Hi=[forward_LSTM(ei),backward_LSTM(ei)];

SP=sum_pookling(eL1,eL2);

α=softmax(wT[SP,Hi,dot_product(SP,Hi)]);

Hs=αH;

其中上式中Wembedding对应于每个词的词向量,上式中xi为对应每个词的编号,通过编号在词向量表中我们索引到对应该词的向量,H表示为[H1,H2,...,HT],Hs即为注意力层的输出,其中forward_LSTM和backward_LSTM分别对应于前向和后向的LSTM,上式中ei为每个词对应的词向量,SP对应于实体词对eL1,eL2的词向量和,dot_product表示两个向量的点积,wT为权重;

通过前向神经网络得到每个词语的类别标签的概率分布,然后使用交叉熵作为损失函数进行权重更新。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911069823.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top