[发明专利]一种互联网信息分层采集方法有效
申请号: | 201711461851.6 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108170803B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 沈文凯;李广兵;汪洋 | 申请(专利权)人: | 南京烽火天地通信科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 杨海军 |
地址: | 211161 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种互联网信息分层采集方法,将种子URL库作为系统架构的输入端,用来存储互联网数据采集入口URL;所述翻转层根据每个种子链接URL的处理周期,集中将种子链接URL对应网页包含的链接URL输出到Merge层;所述Merge层作为集中对翻转层输入的链接URL做全局去重,并将去重后的链接URL交由采集层处理;所述采集层负责对每个链接URL做数据采集,再根据内部采集逻辑处理链接URL集合中的每条链接URL,包括下载链接URL页面、解析链接URL页面、从链接URL页面中提取需要的互联网信息数据,最后将提取到的互联网信息数据保存至信息库中;所述信息库为系统架构的输出端。本发明使用一种高效、可靠、灵活的采集技术,最终实现互联网信息采集快、准、全的目标。 | ||
搜索关键词: | 一种 互联网 信息 分层 采集 方法 | ||
所述种子URL库作为系统架构的输入端,用来存储互联网数据采集入口URL;
所述翻转层根据每个种子链接URL的处理周期,集中将种子链接URL对应网页包含的链接URL输出到Merge层;
所述Merge层作为集中对翻转层输入的链接URL做全局去重,并将去重后的链接URL交由采集层处理;
所述采集层负责对每个链接URL做数据采集,再根据内部采集逻辑处理链接URL集合中的每条链接URL,包括下载链接URL页面、解析链接URL页面、从链接URL页面中提取需要的互联网信息数据,最后将提取到的互联网信息数据保存至信息库中;
所述信息库为系统架构的输出端。
2.如权利要求1所述的一种互联网信息分层采集方法,其特征在于,所述翻转层的内部处理具体步骤包括:步骤1、过滤链接URL集合中不必要的链接URL;
步骤2、对链接URL集合进行本地化去重;
步骤3、调整种子URL库中互联网数据采集任务的执行间隔,翻转层记录一段时间内每个互联网采集任务经过本地化去重后输出的链接URL集合大小,并将这个值用来推测计算下次该任务执行的间隔。
3.如权利要求2所述的一种互联网信息分层采集方法,其特征在于,步骤2中所述本地化去重具体是指:翻转层在内存中存储定量的URL集合,上述集合定义为本地全量URL集合,每次互联网数据采集任务执行时新获取到的链接URL集合都要将本地全量URL集合中已经包含的URL过滤掉,生成一个仅包含之前从未采集到的链接URL集合。
4.如权利要求2所述的一种互联网信息分层采集方法,其特征在于,步骤3中所述计算的方法具体为:统计同一时间段该互联网采集任务经过本地化去重后输出的链接URL集合大小平均值,按照得出的平均值来推测下个时间段该互联网数据采集任务执行的间隔。
5.如权利要求1所述的一种互联网信息分层采集方法,其特征在于:根据网站的大小,一个网站可以存储多个入口URL,每个入口URL都是一个独立的互联网数据采集任务。6.如权利要求1所述的一种互联网信息分层采集方法,其特征在于:所述Merge层的去重是将翻转层提交过来的链接URL集合与全量链接URL集合进行过滤,过滤后得到的链接URL将提交给采集层进行数据采集。7.如权利要求6所述的一种互联网信息分层采集方法,其特征在于:全量链接URL在存储时按不同的互联网站点分开存储,以提高去重效率。该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火天地通信科技有限公司,未经南京烽火天地通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711461851.6/,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置