[发明专利]分布式网络爬虫抓取任务调度方法、调度端设备及抓取节点有效

专利信息
申请号: 201310491887.4 申请日: 2013-10-18
公开(公告)号: CN103559219A 公开(公告)日: 2014-02-05
发明(设计)人: 周东 申请(专利权)人: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F9/48
代理公司: 北京邦信阳专利商标代理有限公司 11012 代理人: 王昭林;金玺
地址: 100080 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分布式 网络 爬虫 抓取 任务 调度 方法 设备 节点
【说明书】:

技术领域

发明涉及网络爬虫相关技术领域,特别是分布式网络爬虫抓取任务调度方法、调度端设备及抓取节点。

背景技术

随着互联网信息的爆炸式增长,出现了越来越多以获取大量信息为基础的应用软件,如搜索引擎、电子商务比价系统、舆情系统等。其中,网络爬虫是这些应用不可缺少的重要底层组成部分。而对于大数据量互联网信息,单节点爬虫的抓取无法满足现实的需求,于是分布式网络爬虫应运而生。

分布式网络爬虫由多个爬虫节点组成,按照通信方式不同可分为主从模式、自治模式与混合模式。其中主从模式方式,是指由一台主机作为调度端负责所有运行网络爬虫的主机进行管理,爬虫端(或者称抓取节点)只需要从调度端那里接收抓取任务,并把新生成抓取任务提交给调度端再分配就可以了,在这个过程中不必与其他爬虫通信,这种方式实现简单明晰且有利于管理。

现有的主从模式分布式网络爬虫抓取任务调度方法主要集中在如下二种:

(1)按照时间与节点均等分配抓取任务。步骤S101,调度端首先从数据库里读取保存的初始种子,生成一定数量待抓取的抓取任务(其中一个抓取任务包含多个待抓取的种子),然后平均分配到每个爬虫端。步骤S102,爬虫端根据分配的抓取任务开始抓取网页内容,同时将生成新待抓取的种子传到调度端。步骤S103,调度端预估一个抓取任务分配间隔时间,按照间隔时间回到步骤S101,对待抓取的种子URL再次生成抓取任务,然后均等分配到每个抓取端。整个过程不断循环执行。工作流程图如图1所示。

(2)按照抓取端抓取任务完成通知,批量分配抓取任务。步骤S201,调度端首次从数据库里读取保存的初始种子,生成一定数量待抓取的抓取任务,然后批量均等分配到每个爬虫端。步骤S202,每个爬虫端根据分配的抓取任务开始执行,同时将抓取的网页内容生成的种子传回调度端。步骤S203,一个爬虫端节点完成调度端分配的全部抓取任务之后,将通知调度端抓取任务抓取完成。步骤S204,调度端接收到某个节点的抓取任务完成消息之后,再生成批量抓取任务分配给该节点。如此,不断的循环性,直到所有的种子抓取完成。工作流程图如图2所示。

现有的两种主从模式分布式抓取任务调度方法都能够满足分布式多节点协同方式抓取数据,适合多目标网站大数据量的抓取,但是这两种方法都存在一定的缺陷。

对于第一种按照时间与节点均等分配抓取任务方法,该方法主要是根据经验预估一个间隔时间,然后每经过这个间隔时间就生成确定数量的抓取任务,然后均等分配到每个节点。这个方法最大的优点就是逻辑简单明晰,可以快速实现,但是存在如下缺点:第一,该方法中的抓取任务分配间隔时间与抓取端机器性能、网络状况及不同目标网站有很大关系,如果这个间隔时间较小,抓取的时候有很多抓取端还未完成抓取任务的同时,新的一批抓取任务又被分配过来,就造成排队等待,降低抓取效率;如果这个间隔时间较大,抓取端完成了被分配的抓取任务,但是调度端抓取任务还没有分配过来,就造成了资源浪费。同时每个爬虫端,因网络状况、不同目标网站URL地址及机器性能不同,虽然首次分配时间点是一致的,但是抓取任务完成时间点也不尽相同。所以不管间隔时间设置多少,总会存在一部分低效并且浪费资源的爬虫端节点。第二,该方法均等分配给每个节点的抓取任务数及每个抓取任务包含的种子数都是人工预估或根据经验值来确定的,所以,同样因无法充分考虑不同节点的网络状况、性能状况,目标网站不同及抓取任务执行情况的不同,造成效率低,资源浪费的弊端。第三,调度端与爬虫端的交互性不够强,调度端只管按时分配抓取任务,爬虫端如果在某个目标网站抓取出现诸如被封等异常,调度端无法及时感应到,最终导致整体数据抓取异常。所以,这种方法容错性不强。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310491887.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top