[发明专利]一种基于分类和关联分析的漏洞数据挖掘方法无效

申请号：	201010173796.2	申请日：	2010-05-14
公开（公告）号：	CN101853277A	公开（公告）日：	2010-10-06
发明（设计）人：	毕硕本;朱斌;乔文文;梁静涛;王启富	申请（专利权）人：	南京信息工程大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F21/00
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	许方
地址：	210044 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于分类关联分析漏洞数据挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于分类和关联分析的漏洞数据挖掘方法，其特征在于，所述方法括如下：

①漏洞信息搜集系统，对各安全知识网站公布的漏洞信息进行自动搜集处理即网络爬虫挖掘方法，将Internet上分散的海量信息下载到本地进行数据处理，并建立原始漏洞信息数据库；

②漏洞数据管理系统，通过DB接口实现对已有的原始漏洞数据库进行信息管理，包括漏洞查询、修改、删除、导入、更新，并利用漏洞爬虫技术，实时监测是否公布最新漏洞，即时地更新漏洞信息；

③漏洞数据挖掘系统，根据漏洞信息数据库中记录的漏洞信息，建立由漏洞文档模型构成的结构化的训练文档集，提取漏洞信息的漏洞特征向量，采用KNN分类算法将漏洞文档模型进行自动分类得到多组漏洞分类模型，对每一类的漏洞分类模型进行数据挖掘与知识发现；把漏洞分类模型按各个指标对分类结果进行评价或解释，并以可视化的方式呈现给用户；利用Apriori关联规则挖掘算法对各组漏洞分类提取关键字，形成频繁项集，进而运用挖掘算法产生关键词间的关联规则即每一类漏洞文档模型对应一组关联规则；最后将漏洞记录的各数据项进行对比分析，找出漏洞数据之间隐含的关联关系，将关联关系纳入漏洞知识库中。

2.如权利要求1所述的一种基于分类和关联分析的漏洞数据挖掘方法，其特征在于所述漏洞信息搜集系统的信息搜集，包括如下步骤：

A预先定义漏洞网页的搜集规则，包括漏洞列表父网页的起始链接地址、导航关键字、采集网页的范围及增量，还有漏洞列表网页中漏洞详细信息子网页地址的采集标识；

B预先定义与漏洞信息相关的搜集字段规则，包括字段名称、类型、前标识符、后标识符等关键信息；

C创建用于网络通信的套接字对象，连接目标服务器，并向服务器发送HTTP下载请求，以流数据方式接收网页内容信息；

D将漏洞详细信息子网页的标识关键字作为索引，快速定位漏洞详细所在链接地址，并将页面中所有子网页的地址加入等待队列集合中；

E采用多线程技术，提取漏洞详细信息子页面中的数据，与用户定义的关键字库中的关键字进行信息过滤，根据前后标识符定位漏洞信息的主体部分；

F搜集到用户所需的字段信息后，将各字段信息导入漏洞信息数据库中。

3.如权利要求1所述的一种基于分类和关联分析的漏洞数据挖掘方法，其特征在于所述漏数据管理系统的数据管理包括如下步骤：

1)通过DB接口中间件，实现对漏洞信息数据库进行各种模糊查询及检索的事务操作；

2)实现对漏洞信息数据库中的记录进行修改事务操作，并更新到漏洞信息数据库中；

3)实现对漏洞信息数据库中的记录进行删除事务操作，并更新到漏洞信息数据库中；

4)采用预先定义漏洞网页的搜集规则，及时地更新漏洞信息，将最新的漏洞记录存储到本地漏洞信息数据库中，所述漏洞网页的搜集规则，包括漏洞列表父网页的起始链接地址、导航关键字、采集网页的范围及增量，还有漏洞列表网页中漏洞详细信息子网页地址的采集标识。