[发明专利]面向软件项目的多源异构数据自动收集方法及系统有效
申请号: | 201710301051.1 | 申请日: | 2017-05-02 |
公开(公告)号: | CN107220297B | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 邹艳珍;倪际楠;曹英魁;谢冰;赵俊峰 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F9/48;G06F9/50 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余功勋 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 软件 项目 多源异构 数据 自动 收集 方法 系统 | ||
1.面向软件项目的多源异构数据自动收集方法,其步骤包括:
1)根据用户输入的软件项目名称及URL,并利用通用的基于广度优先的网页爬虫方法,对与该软件项目相关的多个站点中的所有Web页面进行爬取;
2)当上述爬取的Web页面中的URL是已知的数据类型的数据入口地址时,根据已知的不同数据类型的数据入口地址创建其对应的数据爬取任务,并调用对应的爬取方法进行数据爬取;其中所述调用对应的爬取方法进行数据爬取包括以下步骤:
2-1)对上述创建的多个数据爬取任务进行调度;
2-2)当系统资源足够时,对每个数据爬取任务分配系统资源,并构建存储目录;
2-3)爬取上述每个数据爬取任务中的URL目录,并将URL目录进行划分;
2-4)根据上述划分的URL目录创建多个子线程,并进行多线程数据爬取;
2-5)当上述所有子线程数据爬取结束后,释放系统资源;
3)对上述爬取的数据进行解析并存储到数据库中。
2.如权利要求1所述的方法,其特征在于,步骤2)采用以下步骤判断上述爬取的Web页面中的URL是否是已知的数据类型的数据入口地址:
1)调用detect方法判断上述爬取的Web页面中的URL是否是已知的数据类型的资源页面对应的地址,若是则过滤掉以提高爬取效率,否则继续对该Web页面中的URL进行判断;
2)调用detectEntry方法判断上述过滤后得到的Web页面中的URL是否是已知的数据类型的数据入口地址,若是则根据已知的不同数据类型的数据入口地址创建其对应的数据爬取任务,否则继续利用上述通用的基于广度优先的网页爬虫方法进行爬取。
3.如权利要求1所述的方法,其特征在于,步骤2)中所述数据爬取任务包括软件项目相关信息以及需要爬取的数据类型;其中所述软件项目相关信息包括软件项目名称、软件项目爬取开始时间、软件项目URL。
4.如权利要求1所述的方法,其特征在于,步骤2-2)中所述存储目录包括存储文件目录和爬取任务记录;其中所述存储文件目录是指“软件项目名称/资源名称”形式的文件目录;所述爬取任务记录包括软件项目名称、数据类型、存储地址、任务状态。
5.面向软件项目的多源异构数据自动收集系统,包括多任务多线程数据爬取模块、多源异构软件项目数据自动收集模块和数据解析存储模块;
所述多任务多线程数据爬取模块用于对多个数据爬取任务进行统一的调度,并对不同类型的数据实现不同的爬取方法,以根据不同数据类型的数据入口地址自动调用不同的爬取方法对不同类型的数据爬取任务进行数据爬取;
所述多源异构软件项目数据自动收集模块用于根据用户输入的软件项目名称及URL自动化探测该软件项目数据的数据类型及其对应的数据入口地址,并根据已知的不同数据类型的数据入口地址创建其对应的数据爬取任务,在所述多任务多线程数据爬取模块中调用对应的爬取方法对数据进行收集;
所述数据解析存储模块用于对所述多源异构软件项目数据自动收集模块收集的数据进行解析并存储到数据库中。
6.如权利要求5所述的系统,其特征在于,所述多任务多线程数据爬取模块包括任务管理模块和数据爬取模块;其中所述数据爬取模块包括任务初始化模块、数据爬取单线程运行模块、数据爬取多线程运行模块和任务结束模块;
所述任务管理模块用于对多个数据爬取任务进行统一的调度;
所述任务初始化模块用于为上述每个数据爬取任务分配系统资源,并构建存储目录;
所述数据爬取单线程运行模块用于爬取上述每个数据爬取任务中的URL目录,并将URL目录进行划分;
所述数据爬取多线程运行模块用于根据上述划分的URL目录创建多个子线程,并进行多线程数据爬取;
所述任务结束模块用于对上述所有子线程数据爬取结束后释放系统资源,并记录所述数据爬取模块的结束状态。
7.如权利要求6所述的系统,其特征在于,所述任务结束处理模块还用于对所述数据爬取模块发生异常结束处理时进行异常错误处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710301051.1/1.html,转载请声明来源钻瓜专利网。