[发明专利]一种基于分类和关联分析的漏洞数据挖掘方法无效
申请号: | 201010173796.2 | 申请日: | 2010-05-14 |
公开(公告)号: | CN101853277A | 公开(公告)日: | 2010-10-06 |
发明(设计)人: | 毕硕本;朱斌;乔文文;梁静涛;王启富 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F21/00 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 许方 |
地址: | 210044 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分类 关联 分析 漏洞 数据 挖掘 方法 | ||
1.一种基于分类和关联分析的漏洞数据挖掘方法,其特征在于,所述方法括如下:
①漏洞信息搜集系统,对各安全知识网站公布的漏洞信息进行自动搜集处理即网络爬虫挖掘方法,将Internet上分散的海量信息下载到本地进行数据处理,并建立原始漏洞信息数据库;
②漏洞数据管理系统,通过DB接口实现对已有的原始漏洞数据库进行信息管理,包括漏洞查询、修改、删除、导入、更新,并利用漏洞爬虫技术,实时监测是否公布最新漏洞,即时地更新漏洞信息;
③漏洞数据挖掘系统,根据漏洞信息数据库中记录的漏洞信息,建立由漏洞文档模型构成的结构化的训练文档集,提取漏洞信息的漏洞特征向量,采用KNN分类算法将漏洞文档模型进行自动分类得到多组漏洞分类模型,对每一类的漏洞分类模型进行数据挖掘与知识发现;把漏洞分类模型按各个指标对分类结果进行评价或解释,并以可视化的方式呈现给用户;利用Apriori关联规则挖掘算法对各组漏洞分类提取关键字,形成频繁项集,进而运用挖掘算法产生关键词间的关联规则即每一类漏洞文档模型对应一组关联规则;最后将漏洞记录的各数据项进行对比分析,找出漏洞数据之间隐含的关联关系,将关联关系纳入漏洞知识库中。
2.如权利要求1所述的一种基于分类和关联分析的漏洞数据挖掘方法,其特征在于所述漏洞信息搜集系统的信息搜集,包括如下步骤:
A预先定义漏洞网页的搜集规则,包括漏洞列表父网页的起始链接地址、导航关键字、采集网页的范围及增量,还有漏洞列表网页中漏洞详细信息子网页地址的采集标识;
B预先定义与漏洞信息相关的搜集字段规则,包括字段名称、类型、前标识符、后标识符等关键信息;
C创建用于网络通信的套接字对象,连接目标服务器,并向服务器发送HTTP下载请求,以流数据方式接收网页内容信息;
D将漏洞详细信息子网页的标识关键字作为索引,快速定位漏洞详细所在链接地址,并将页面中所有子网页的地址加入等待队列集合中;
E采用多线程技术,提取漏洞详细信息子页面中的数据,与用户定义的关键字库中的关键字进行信息过滤,根据前后标识符定位漏洞信息的主体部分;
F搜集到用户所需的字段信息后,将各字段信息导入漏洞信息数据库中。
3.如权利要求1所述的一种基于分类和关联分析的漏洞数据挖掘方法,其特征在于所述漏数据管理系统的数据管理包括如下步骤:
1)通过DB接口中间件,实现对漏洞信息数据库进行各种模糊查询及检索的事务操作;
2)实现对漏洞信息数据库中的记录进行修改事务操作,并更新到漏洞信息数据库中;
3)实现对漏洞信息数据库中的记录进行删除事务操作,并更新到漏洞信息数据库中;
4)采用预先定义漏洞网页的搜集规则,及时地更新漏洞信息,将最新的漏洞记录存储到本地漏洞信息数据库中,所述漏洞网页的搜集规则,包括漏洞列表父网页的起始链接地址、导航关键字、采集网页的范围及增量,还有漏洞列表网页中漏洞详细信息子网页地址的采集标识。
4.如权利要求1所述的一种基于分类和关联分析的漏洞数据挖掘方法,其特征在于所述漏洞数据挖掘系统的数据挖掘包括如下步骤:
a根据漏洞信息数据库中的记录信息,建立结构化的训练文档集,基于评估函数及统计方法来提取漏洞特征向量;
b利用已提取的多维特征向量,采用KNN文本分类算法将漏洞文档模型进行自动分类,对每一类的漏洞信息进行数据挖掘与知识发现,纳入漏洞知识库中;
c把分类模型按各个指标对分类结果进行评价或解释,并以可视化的方式呈现给用户,使用户能够清晰明了地浏览漏洞分类结果;
d运用关联规则挖掘算法,对各个漏洞分类进行关联规则挖掘,形成关联规则库,并纳入漏洞知识库中;
e若有最新的单个漏洞信息产生,根据已有的漏洞分类模型,对新的漏洞信息,进行分类及结果输出。
5.如权利要求4所述的一种基于分类和关联分析的漏洞数据挖掘方法,其特征在于,所述步骤c具体包括:
c1对比类别及结果信息,查看每个类别中的漏洞信息分类结果,包括其记录名、当前类、应属类等信息;
c2查看该漏洞分类模型的性能,并以图形化的方式呈现给用户,具体包括各分类的查准率、查全率及两者综合指标信息。
6.如权利要求4所述的一种基于分类和关联分析的漏洞数据挖掘方法,其特征在于,所述步骤d具体包括:
d1利用Apriori关联规则挖掘算法对各组漏洞分类提取关键字,形成频繁项集,进而运用挖掘算法产生关键词间的关联规则即每一类文档对应一组关联规则;
d2将漏洞记录的各数据项进行对比分析,找出漏洞数据之间隐含的关联关系;
d3将关联分析结果纳入漏洞知识库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010173796.2/1.html,转载请声明来源钻瓜专利网。