[发明专利]一种基于深度学习的信息安全知识图谱的自动构建方法有效
申请号: | 201911069823.9 | 申请日: | 2019-11-05 |
公开(公告)号: | CN110941716B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 李博;左光胜 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 信息 安全 知识 图谱 自动 构建 方法 | ||
一种基于深度学习的信息安全知识图谱的自动构建方法,包括以下步骤,步骤1,构建信息安全知识图谱的本体库;步骤2,对收集的数据基于启发式规则的方式进行标注得到实体识别的训练集,并设计了基于Bi‑LSTM的模型结构进行学习作为实体识别的模型,从而抽取出文本的实体词;步骤3,基于三元组知识来进行自动标注得到关系抽取的训练集,并设计了基于注意力机制的LSTM结构作为关系抽取的模型,从而抽取出文本中的三元组(关系)。
技术领域
本发明涉及一种图谱的自动构建方法,尤其涉及一种基于深度学习的信息安全知识图谱的自动构建方法。
背景技术
目前的信息安全知识库大多数采用人工维护和更新的方式进行维护,比较著名的比如CVE(公共漏洞知识库),但CVE的更新大多采用人工手动更新的方式,不能及时地更新一些新发现地漏洞和攻击知识,而这些知识往往都已经在第一时间发表在相关公司厂商或者安全团队的博客里,所以有必要采用一种自动更新的方式从文本中挖掘和提取知识。
除了公开的知识库之外,现有技术有一些研究比如Stucco,通过采用机器学习的方法从文本中提取三元组从而构建知识图谱,在实体识别过程中采用最大熵模型基于标注的预料进行训练从而从文本提取相关的实体,在提取实体之后,使用基于主动学习的半监督方法进行关系抽取,构建了一个信息安全的知识库。
然而目前现有技术中存在两个问题,第一,基于人工整理的方式,虽然具有较好的准确率,但是存在更新不及时的问题;第二,目前基于机器学习方法的研究,算法的效果不够好,尤其是在关系抽取阶段,介入了人工的辅助才能进行学习,构建过程仍然不是完全自动化。
发明内容
针对上述问题,本发明提出了一种基于深度学习的信息安全知识图谱的自动构建方法,通过建立模型自动识别信息安全相关的实体词以及根据上下文语义判定实体词之间的关系。
一种基于深度学习的信息安全知识图谱的自动构建方法,包括以下步骤,
步骤1,构建信息安全知识图谱的本体库;
步骤2,对收集的数据基于启发式规则的方式进行标注得到实体识别的训练集,并设计了基于Bi-LSTM的模型结构进行学习作为实体识别的模型,从而抽取出文本的实体词;
步骤3,基于三元组知识来进行自动标注得到关系抽取的训练集,并设计了基于注意力机制的LSTM结构作为关系抽取的模型,从而抽取出文本中的三元组(关系)。
进一步,所述本体库的包括实体的类型和实体的关系,所述实体类型共12种,所述实体类型包括软件,软件供应商,漏洞,漏洞类型,攻击,恶意软件,防御工具,软件的更新,软件的版本,文件,代码块,硬件;所述关系共8种。
进一步,所述对本体库的数据集进行标注的具体方式为,首先根据本题库定义的实体类型,对每一种类型的实体收集词汇构成实体词典,然后根据实体词典对文本句子进行标注。
进一步,采用了Bi-LSTM来对句子进行编码的具体方式为首先将句子序列中的每个词转化为词向量,然后作为LSTM的输入,LSTM每一个STEP的输出作为句子中对应词的表征,Bi-LSTM从句子的两个方向分别进行编码,由此对于每一个词语得到了两个表征编码和两个向量分别表示该词的上文信息和下文信息。并且使用激活函数得到类别取值的概率分布的具体方式为
zi=wTHi+b
Fi=softmax(zi),
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911069823.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种刀闸状态非同源确定系统及方法
- 下一篇:秘密数运算转换方法及系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置