[发明专利]一种面向网络安全的知识库构建方法有效
申请号: | 201810039839.4 | 申请日: | 2018-01-15 |
公开(公告)号: | CN108256063B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 尚怀军;江荣;贾焰;周斌;李爱平;杨树强;韩伟红;李润恒;徐镜湖;安伦;亓玉璐;杨行;马凯;王伟;林佳 | 申请(专利权)人: | 中国人民解放军国防科技大学;四川亿览态势科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/28;G06F40/284;G06F21/56 |
代理公司: | 苏州国诚专利代理有限公司 32293 | 代理人: | 韩凤 |
地址: | 410073 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 网络安全 知识库 构建 方法 | ||
1.一种面向网络安全的知识库构建方法,其特征在于,包括:
步骤1)构建一个网络安全领域本体,形成网络安全知识库的基础和基本骨架;
步骤2)基于已经构建好的本体,整合已有的网络安全知识库,将异构的结构化网络安全知识融合到统一的知识库中;
步骤3)训练网络安全命名实体识别器,从网络安全相关的短文本中识别出网络安全相关的实体,将从短文本中抽取的知识更新到网络安全知识库,使得网络安全知识库不断更新和迭代;
其中,在步骤1中,构建的网络安全领域本体包括的实体类型有:漏洞、软件、操作系统、浏览器、攻击、攻击效果、攻击方法;
在步骤2中,所述异构的结构化网络安全知识包括结构化数据和非结构化数据,对于结构化数据,使用D2R映射工具将关系数据库中的数据转换为RDF数据,且将Snort攻击规则作为一行存储在一个文件中,并用一个程序来提取攻击规则中每个字段的信息,其中,有一个字段的值是cveid(漏洞编号),通过cveid将攻击规则与漏洞相关联;
针对非结构化数据,基于规则和机器学习的方法来提取网络安全相关实体,具体包括:
对于攻击效果和攻击方法这两个实体类型,使用基于规则的方法来提取相应的实体;具体包括:
首先,定义一组触发词,触发词是指在识别标记中起重要作用的词,它可以触发提取任务,因此,触发词的出现意味着附近有相关的实体,
根据触发方向,触发字可以分为前向触发,后向触发,双向触发三种;由此,建立触发词列表是通过基于规则的方法提取实体的关键,依靠触发词列表完成提取任务;
建立了攻击效果和攻击方法的触发词列表,其中,攻击效果的触发词可以直接触发出现攻击效果,攻击方法的触发可以直接触发出现攻击方法;
在步骤3中,依靠斯坦福命名实体识别器提取网络安全相关实体,包括:
使用斯坦福NER的基础实现来训练一个实体识别器;
分析已有的特征,选择对训练模型有用的特征,然后通过实验,并确定一个用于训练命名识别器的特征集;
基于这个特征集训练命名实体识别器;
其中,用于训练命名识别器的特征集包括UseNGrams、MaxNGramLeng、UsePrev、UseNext、UseWordPairs、UseGazettes、Gazette、CleanGazette、SloppyGazette。
2.根据权利要求1所述的面向网络安全的知识库构建方法,其特征在于,步骤3)中,具体包括:
采用条件随机场模型用于命名实体识别,其中,p(y│x)是模型概率分布,其中x是观察序列,y是标记序列;
p(y│x)由下公式计算:
其中N是词语的数目,M是特征的数目;
其中,f_i是一个二值函数,yj-1为前一个词的实体类型,yj为当前词的实体类型。
3.根据权利要求1所述的面向网络安全的知识库构建方法,其特征在于,步骤3),具体包括以下步骤:
步骤3-1)获取标注好的数据集,其中,网络安全相关的短文本中已经标注好对应的实体类的数据集,训练时采用的是马里兰大学人工标注的数据集,短文本主要包括漏洞描述、安全公告;
步骤3-2)构建实体词典,从漏洞库中的一些结构化的字段中提取出了软件、操作系统这两类实体类的实例,利用这些实例构建出实体词典;
步骤3-3)基于步骤3-2)构建的实体词典建立相应的特征,利用条件随机场模型训练得到网络安全领域的命名实体识别器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学;四川亿览态势科技有限公司,未经中国人民解放军国防科技大学;四川亿览态势科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810039839.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网页动画实现方法、装置、电子设备、存储介质
- 下一篇:一种数据搜索方法和装置