[发明专利]一种分布式爬虫调度系统在审

专利信息
申请号: 202011303271.6 申请日: 2020-11-19
公开(公告)号: CN112416551A 公开(公告)日: 2021-02-26
发明(设计)人: 庞文俊;陈继;汤桂林;李小超;伊晓强 申请(专利权)人: 清创网御(合肥)科技有限公司
主分类号: G06F9/48 分类号: G06F9/48;G06F9/50;G06F16/951;G06F16/955
代理公司: 合肥律众知识产权代理有限公司 34147 代理人: 殷娟
地址: 230000 安徽省合肥市经济技术开发区习*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 分布式 爬虫 调度 系统
【说明书】:

发明公开了一种分布式爬虫调度系统,包括调度控制器、多个爬虫系统与过滤器;所述调度控制器包括调度器、分配器、内部配置有用于对爬虫任务按照调度时间进行正向排序的排序列表和用于分配爬虫任务的待采集队列;所述爬虫系统包括网页解析器与多个爬虫,每个爬虫分配了一个爬虫队列,并接受调度控制器下发的任务;所述爬虫系统的作用包括网页下载和网页解析;所述爬虫系统启动时,把本系统具备的所有爬虫和爬虫位置信息上报到调度控制器。本发明计算调度时间的高效性,调度过程中的指定某类或者某个爬虫,并采用独立的过滤器支持多种模式和持续大量数据的过滤。

技术领域

本发明涉及网络爬虫调度领域,具体涉及一种分布式爬虫调度系统。

背景技术

网络爬虫,又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫,在进行爬虫作业时需要使用到爬虫调度系统,来调度爬虫工作。

现有的爬虫调度系统,专注于基于爬虫负载的调度,调度时间不够准确,过滤模式较为单一,提供的爬虫质量较差,给爬虫调度系统的使用带来了一定影响,因此,提出一种分布式爬虫调度的方法。

发明内容

本发明所要解决的技术问题在于:如何解决现有的爬虫调度系统,调度时间不够准确,过滤模式较为单一,提供的爬虫质量较差,给爬虫调度系统的使用带来了一定影响的问题,提供了一种分布式爬虫调度系统。

本发明是通过以下技术方案解决上述技术问题的,本发明包括调度控制器、爬虫系统与过滤器;

所述调度控制器包括调度器、分配器、内部配置有用于对爬虫任务按照调度时间进行正向排序的排序列表和用于分配爬虫任务的待采集队列;

所述爬虫系统包括网页解析器与多个爬虫,每个爬虫分配了一个爬虫队列,并接受调度控制器下发的任务;

所述爬虫系统的作用包括网页下载和网页解析;

所述爬虫系统启动时,把本系统具备的所有爬虫和爬虫位置信息上报到调度控制器;

所述调度控制器用于对爬虫系统进行调度处理,所述调度控制器内存放了所有需要进行调度的爬虫任务并根据下一次调度时间进行正向排序;

所述调度器用于定时从头遍历排序列表,当遍历到某个任务的下一次调度时间大于系统当前时间时,取出之前遍历到的所有任务放入待采集队列,并重新计算取出任务的下一次调度时间,写回排序列表;

所述分配器用于取出待采集队列中的采集任务,分配给空闲爬虫,没有空闲爬虫时,则一直等待爬虫系统上报空闲爬虫;

所述分配器获取到空闲爬虫后,根据爬虫位置信息,发送RPC请求到对应爬虫系统,再把待采集任务发送到其对应爬虫的队列;

每个爬虫消费自己的采集队列,并进行下载处理,队列清空后上报调度控制器本爬虫空闲;

所述过滤器用于对爬虫系统获取到的新的下载请求进行过滤处理。

优选的,所述待采集队列是一个优先级队列,待采集队列配置了最大尺寸,当爬虫系统不能及时释放爬虫,则队列达到上限,无法接受新的爬虫任务。

优选的,每个所述爬虫采集任务记录了调度时间间隔、请求url、请求方法、请求头、cookie、最大尝试次数等信息。

优选的,所述下载处理过程中下载失败时,判断是否需要重试,需要重试则直接通过RPC把采集任务加入调度器待采集队列;

所述下载处理过程下载成功后,将下载的网页传输给网页解析器,网页解析器会解析出信息实体和新的下载url,对于信息实体,输出到业务系统进行处理,对于新的下载请求,需要加上过滤模式发送给过滤器进行过滤处理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清创网御(合肥)科技有限公司,未经清创网御(合肥)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011303271.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top