[发明专利]分布式网络爬虫抓取任务调度方法、调度端设备及抓取节点有效
申请号: | 201310491887.4 | 申请日: | 2013-10-18 |
公开(公告)号: | CN103559219A | 公开(公告)日: | 2014-02-05 |
发明(设计)人: | 周东 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/48 |
代理公司: | 北京邦信阳专利商标代理有限公司 11012 | 代理人: | 王昭林;金玺 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 网络 爬虫 抓取 任务 调度 方法 设备 节点 | ||
1.一种分布式网络爬虫抓取任务调度方法,其特征在于,包括:
抓取任务发送步骤,为多个抓取网络信息的抓取节点生成至少一个包括至少一个种子的抓取任务,向每个抓取节点发送对应的抓取任务,所述种子为目标网站的网络地址,所述抓取任务用于所述抓取节点的线程从所述抓取任务所包括的每个种子下载并解析出抓取内容;
抓取任务修正步骤,接收到多个抓取节点发送的快照数据,根据多个所述抓取节点的快照数据确定发送到每个抓取节点的抓取任务数量,以及每个抓取任务所包括的每个目标网站的种子的数量,执行抓取任务发送步骤,每个所述快照数据由所述抓取节点每隔预设时间生成,且所述快照数据描述所述抓取节点对所述抓取任务的执行情况。
2.根据权利要求1所述的分布式网络爬虫抓取任务调度方法,其特征在于,所述快照数据包括:所述抓取节点的节点标识、所述抓取节点抓取任务的总数量、所述抓取节点未完成的抓取任务的数量、所述抓取节点未完成的种子的数量,以及所述抓取节点未完成的种子所属目标网站的目标网站标识;
对接收到的快照数据,采用如下方式确定每个抓取节点的抓取任务数量:计算每个抓取节点的抓取任务需求数为抓取节点抓取任务的总数量减去抓取节点未完成的抓取任务的数量;按照抓取任务需求数从高到低进行排序,向抓取任务需求数高的抓取节点发送的抓取任务数量大于向抓取任务需求数低的抓取节点发送的抓取任务数量;
对接收到的快照数据,采用如下方式确定每个抓取任务所包括的每个目标网站的种子的数量:根据多个抓取节点发送的快照数据所包括的未完成的种子的数量,以及未完成的种子所属目标网站的目标网站标识计算每个目标网站的未完成的种子的数量作为目标网站需求数;按照目标网站需求数从高到低进行排序,抓取任务所包括的目标网站需求数高的目标网站的种子的数量大于目标网站需求数低的目标网站的种子的数量。
3.根据权利要求1所述的分布式网络爬虫抓取任务调度方法,其特征在于,所述快照数据包括所述抓取节点的节点标识、所述抓取节点抓取出现异常的种子的数量,以及所述抓取节点抓取出现异常的种子所属目标网站的目标网站标识;
对接收到的快照数据,采用如下方式确定每个抓取任务所包括的每个目标网站的种子的数量:根据每个抓取节点发送的所述抓取节点抓取出现异常的种子的数量,以及所述抓取节点抓取出现异常的种子所属目标网站的目标网站标识,确定每个抓取节点抓取每个目标网站出现异常的种子的数量作为对应抓取节点对应目标网站的抓取异常种子数,如果所述抓取异常种子数超过预设阈值,则减少所述抓取异常种子数对应抓取节点的对应目标网站的种子的数量。
4.根据权利要求1所述的分布式网络爬虫抓取任务调度方法,其特征在于,在首次执行抓取任务发送步骤时,所述抓取任务采用如下方式生成:
为所述抓取任务设定对应的最大种子数,且如果所述最大种子数大于或等于所述目标网站的总数量,则所述抓取任务所包括的种子所对应的待抓网站的数量与所述目标网站的总数量相等,如果所述最大种子数小于所述目标网站的总数量,则所述抓取任务所包括的种子所对应的目标网站各不相同。
5.一种分布式网络爬虫抓取任务调度装置,其特征在于,包括:
抓取任务发送模块,用于为多个抓取网络信息的抓取节点生成至少一个包括至少一个种子的抓取任务,向每个抓取节点发送对应的抓取任务,所述种子为目标网站的网络地址,所述抓取任务用于所述抓取节点的线程从所述抓取任务所包括的每个种子下载并解析出抓取内容;
抓取任务修正模块,用于接收到多个抓取节点发送的快照数据,根据多个所述抓取节点的快照数据确定发送到每个抓取节点的抓取任务数量,以及每个抓取任务所包括的每个目标网站的种子的数量,执行抓取任务发送模块,每个所述快照数据由所述抓取节点每隔预设时间生成,且所述快照数据描述所述抓取节点对所述抓取任务的执行情况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310491887.4/1.html,转载请声明来源钻瓜专利网。