[发明专利]一种互联网信息分层采集方法有效
申请号: | 201711461851.6 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108170803B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 沈文凯;李广兵;汪洋 | 申请(专利权)人: | 南京烽火天地通信科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 杨海军 |
地址: | 211161 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 信息 分层 采集 方法 | ||
本发明公开了一种互联网信息分层采集方法,将种子URL库作为系统架构的输入端,用来存储互联网数据采集入口URL;所述翻转层根据每个种子链接URL的处理周期,集中将种子链接URL对应网页包含的链接URL输出到Merge层;所述Merge层作为集中对翻转层输入的链接URL做全局去重,并将去重后的链接URL交由采集层处理;所述采集层负责对每个链接URL做数据采集,再根据内部采集逻辑处理链接URL集合中的每条链接URL,包括下载链接URL页面、解析链接URL页面、从链接URL页面中提取需要的互联网信息数据,最后将提取到的互联网信息数据保存至信息库中;所述信息库为系统架构的输出端。本发明使用一种高效、可靠、灵活的采集技术,最终实现互联网信息采集快、准、全的目标。
技术领域
本发明公开了一种互联网信息分层采集方法,涉及互联网信息技术领域。
背景技术
随着科技的进步,互联网信息进入一个爆炸式、多元式的时代,互联网成为一个巨大的信息库,互联网信息采集可以使您在信息采集、资源整合、资金利用、人力投入等方面节约大量资源,广泛应用于行业门户网站信息采集、竞争对手情报数据搜集、网站内容系统建设、垂直搜索、舆情监测、科研等领域。
常规的互联网信息采集技术如图1所示,一般为:通过种子URL页面不断发现其它链接URL,再对链接URL进行网页下载、解析、存储。这一系列的动作可以看作一次采集任务,在这个采集任务中串行的完成所有采集工作。
通常现有的采集技术都存在任务执行时效长、开销大、内部逻辑比较复杂、灵活性低、采集效率不高,处理少量网站还可以勉强应对,但是在面临大量网站的近乎全网采集时劣势明显,主要表现在:
1、时效长,任务一次执行过程可能耗费数十分钟,且不可预测。
2、开销大,每次执行采集任务过程中网络请求次数多,且采集任务相对臃肿,占用的CPU、内存等硬件资源较多,这样就要求采集设备的配置较高。
3、采集策略单一,通常的采集策略包括深度优先便利策略、广度优先遍历策略以及PageRank策略等,一般情况下只能选择其中的一种采集策略,但是每种采集策略都不能保证将目标网站的数据都采集完整,都会存在一定的数据漏采现象,很难做到网站数据采集全面覆盖。
4、采集任务执行周期固定,采集任务都需要按固定的时间间隔周期性执行,通常执行周期都是固定的,或者人工按照网站的大小、重要程度等设定不同采集任务的执行周期,这种方式极不合理且容易导致数据时效性差。
发明内容
本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种互联网信息分层采集方法,改变现有采集技术的弊端,使用一个高效、可靠、灵活的采集技术,最终实现互联网信息采集快、准、全的目标。
本发明为解决上述技术问题采用以下技术方案:
一种互联网信息分层采集方法,所述方法依托的系统架构包括依次设置的种子URL库、翻转层、Merge层、采集层以及信息库;
所述种子URL库作为系统架构的输入端,用来存储互联网数据采集入口URL;
所述翻转层根据每个种子链接URL的处理周期,集中将种子链接URL对应网页包含的链接URL输出到Merge层;
所述Merge层作为集中对翻转层输入的链接URL做全局去重,并将去重后的链接URL交由采集层处理;
所述采集层负责对每个链接URL做数据采集,再根据内部采集逻辑处理链接URL集合中的每条链接URL,包括下载链接URL页面、解析链接URL页面、从链接URL页面中提取需要的互联网信息数据,最后将提取到的互联网信息数据保存至信息库中;
所述信息库为系统架构的输出端。
作为本发明的进一步优选方案,所述翻转层的内部处理具体步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火天地通信科技有限公司,未经南京烽火天地通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711461851.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置