[发明专利]一种基于深度学习的信息安全知识图谱的自动构建方法有效

申请号：	201911069823.9	申请日：	2019-11-05
公开（公告）号：	CN110941716B	公开（公告）日：	2023-07-18
发明（设计）人：	李博;左光胜	申请（专利权）人：	北京航空航天大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/36
代理公司：	北京中创阳光知识产权代理有限责任公司 11003	代理人：	尹振启
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习信息安全知识图谱自动构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的信息安全知识图谱的自动构建方法，其特征在于，包括以下步骤，步骤1，构建信息安全知识图谱的本体库；步骤2，对收集的数据基于启发式规则的方式进行标注得到实体识别的训练集，并设计了基于Bi-LSTM的模型结构进行学习作为实体识别的模型，从而抽取出文本的实体词；步骤3，基于三元组知识来进行自动标注得到关系抽取的训练集，并设计了基于注意力机制的LSTM结构作为关系抽取的模型，抽取文本中的三元组；本体库包括实体的类型和实体的关系，所述实体类型包括软件，软件供应商，漏洞，漏洞类型，攻击，防御工具，软件的更新，软件的版本，硬件；所述关系包括：影响或者造成威胁、开发与维护、利用、是或者属于的关系、发布或者发行；对本体库的数据集进行标注的具体方式为，首先根据本体库定义的实体类型，对每一种类型的实体收集词汇构成实体词典，然后根据实体词典对文本句子进行标注；所述基于三元组知识来进行自动标注得到训练集的方式为首先基于CVE数据中提取出的字段建立一个三元组的词典，然后对于一个句子中识别出来的实体词，两两去查看是否在三元组词典中，如果在，将这个实体对和该句子作为一个训练样本加入到训练集中，从而构造出一个用来做关系抽取的数据集；

建立基于注意力结构的LSTM描述上下文的具体方式为首先将句子中的词对应到一个向量表示，然后通过Bi-LSTM得到对应于每个词的隐状态H_i，然后与实体词L1和L2的向量和通过注意力层计算一个权重分布，最后得到H_i的加权和H_s,公式如下：

e_i＝W_embeddingx_i；

H_i＝[forward_LSTM(e_i)，backward_LSTM(e_i)]；

SP＝sum_pookling(e_L1，e_L2)；

α＝softmax(w^T[SP，H_i，dot_product(SP，H_i)])；

H_s＝αH；

其中上式中W_embedding对应于每个词的词向量，上式中x_i为对应每个词的编号，通过编号在词向量表中我们索引到对应该词的向量，H表示为[H₁，H₂，...，H_T],H_s即为注意力层的输出，其中forward_LSTM和backward_LSTM分别对应于前向和后向的LSTM，上式中e_i为每个词对应的词向量，SP对应于实体词对e_L1，e_L2的词向量和，dot_product表示两个向量的点积，w^T为权重；

通过前向神经网络得到每个词语的类别标签的概率分布，然后使用交叉熵作为损失函数进行权重更新。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911069823.9/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的信息安全知识图谱的自动构建方法有效

专利文献下载