[发明专利]一种互联网信息分层采集方法有效

专利信息
申请号: 201711461851.6 申请日: 2017-12-28
公开(公告)号: CN108170803B 公开(公告)日: 2021-12-21
发明(设计)人: 沈文凯;李广兵;汪洋 申请(专利权)人: 南京烽火天地通信科技有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/955
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 杨海军
地址: 211161 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 互联网 信息 分层 采集 方法
【说明书】:

发明公开了一种互联网信息分层采集方法,将种子URL库作为系统架构的输入端,用来存储互联网数据采集入口URL;所述翻转层根据每个种子链接URL的处理周期,集中将种子链接URL对应网页包含的链接URL输出到Merge层;所述Merge层作为集中对翻转层输入的链接URL做全局去重,并将去重后的链接URL交由采集层处理;所述采集层负责对每个链接URL做数据采集,再根据内部采集逻辑处理链接URL集合中的每条链接URL,包括下载链接URL页面、解析链接URL页面、从链接URL页面中提取需要的互联网信息数据,最后将提取到的互联网信息数据保存至信息库中;所述信息库为系统架构的输出端。本发明使用一种高效、可靠、灵活的采集技术,最终实现互联网信息采集快、准、全的目标。

技术领域

本发明公开了一种互联网信息分层采集方法,涉及互联网信息技术领域。

背景技术

随着科技的进步,互联网信息进入一个爆炸式、多元式的时代,互联网成为一个巨大的信息库,互联网信息采集可以使您在信息采集、资源整合、资金利用、人力投入等方面节约大量资源,广泛应用于行业门户网站信息采集、竞争对手情报数据搜集、网站内容系统建设、垂直搜索、舆情监测、科研等领域。

常规的互联网信息采集技术如图1所示,一般为:通过种子URL页面不断发现其它链接URL,再对链接URL进行网页下载、解析、存储。这一系列的动作可以看作一次采集任务,在这个采集任务中串行的完成所有采集工作。

通常现有的采集技术都存在任务执行时效长、开销大、内部逻辑比较复杂、灵活性低、采集效率不高,处理少量网站还可以勉强应对,但是在面临大量网站的近乎全网采集时劣势明显,主要表现在:

1、时效长,任务一次执行过程可能耗费数十分钟,且不可预测。

2、开销大,每次执行采集任务过程中网络请求次数多,且采集任务相对臃肿,占用的CPU、内存等硬件资源较多,这样就要求采集设备的配置较高。

3、采集策略单一,通常的采集策略包括深度优先便利策略、广度优先遍历策略以及PageRank策略等,一般情况下只能选择其中的一种采集策略,但是每种采集策略都不能保证将目标网站的数据都采集完整,都会存在一定的数据漏采现象,很难做到网站数据采集全面覆盖。

4、采集任务执行周期固定,采集任务都需要按固定的时间间隔周期性执行,通常执行周期都是固定的,或者人工按照网站的大小、重要程度等设定不同采集任务的执行周期,这种方式极不合理且容易导致数据时效性差。

发明内容

本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种互联网信息分层采集方法,改变现有采集技术的弊端,使用一个高效、可靠、灵活的采集技术,最终实现互联网信息采集快、准、全的目标。

本发明为解决上述技术问题采用以下技术方案:

一种互联网信息分层采集方法,所述方法依托的系统架构包括依次设置的种子URL库、翻转层、Merge层、采集层以及信息库;

所述种子URL库作为系统架构的输入端,用来存储互联网数据采集入口URL;

所述翻转层根据每个种子链接URL的处理周期,集中将种子链接URL对应网页包含的链接URL输出到Merge层;

所述Merge层作为集中对翻转层输入的链接URL做全局去重,并将去重后的链接URL交由采集层处理;

所述采集层负责对每个链接URL做数据采集,再根据内部采集逻辑处理链接URL集合中的每条链接URL,包括下载链接URL页面、解析链接URL页面、从链接URL页面中提取需要的互联网信息数据,最后将提取到的互联网信息数据保存至信息库中;

所述信息库为系统架构的输出端。

作为本发明的进一步优选方案,所述翻转层的内部处理具体步骤包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火天地通信科技有限公司,未经南京烽火天地通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711461851.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top