[发明专利]一种可扩展型分布式热拔插部署网络爬虫服务模型及其控制方法在审
申请号: | 202110604575.4 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113312216A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 郑炎;陈耿生;萨冰珍;刘泳 | 申请(专利权)人: | 中电福富信息科技有限公司 |
主分类号: | G06F11/20 | 分类号: | G06F11/20;G06F16/951 |
代理公司: | 福州君诚知识产权代理有限公司 35211 | 代理人: | 彭东 |
地址: | 350000 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 扩展 分布式 热拔插 部署 网络 爬虫 服务 模型 及其 控制 方法 | ||
1.一种可扩展型分布式热拔插部署网络爬虫服务模型,其特征在于:其包括主控服务器以及至少一台热备主控服务器,主控服务器分别连接任务下发中心和爬虫采集服务集群,任务下发中心用于发布采集任务至当前主控服务器;主控服务用于采集任务下发、动态调整爬虫采集服务集群的负载策略以及同步信息至热备主控服务器;热备主控服务器在主控服务宕机时接替主控服务器以负责采集任务下发、动态调整爬虫采集服务集群的负载策略以及同步信息。
2.根据权利要求1所述的一种可扩展型分布式热拔插部署网络爬虫服务模型,其特征在于:爬虫采集服务集群由若干爬虫节点组成。
3.根据权利要求2所述的一种可扩展型分布式热拔插部署网络爬虫服务模型,其特征在于:爬虫节点与主控服务器之间通过心跳来交互信息,热备主控服务器与主控服务器之间通过心跳来交互信息。
4.根据权利要求1所述的一种可扩展型分布式热拔插部署网络爬虫服务模型,其特征在于:增加或减少热备主控服务器时,热备主控服务器将发送心跳于主控服务,再由主控服务通过心跳Ack将热备信息发送给各个爬虫节点;同时由主控服务器将信息同步给热备主控服务器。
5.一种可扩展型分布式热拔插部署网络爬虫服务模型的控制方法,采用权利要求1至4之一所述的一种可扩展型分布式热拔插部署网络爬虫服务模型,其特征在于:方法包括以下步骤;
步骤1,任务下发中心下发采集任务至主控服务器,
步骤2,主控服务器根据采集任务需求确定任务负载,并将采集任务下发至爬虫采集服务集群中选定的爬虫节点;
步骤3,选定的爬虫节点接收并执行采集任务,同时返回接收任务响应至主控服务器;
步骤4,爬虫采集服务集群的所有爬虫节点周期性向主控服务器通知爬虫节点的存活信息;
步骤5,主控服务器更新对应爬虫节点的存活信息,并同步爬虫节点的存活消息至热备主控服务器的同时向对应的爬虫节点返回响应信息;
步骤6,对应的爬虫节点检查是否在指定时间内收到主控服务器的返回响应信息;是则,保持当前主控服务器不变;否则,判断当前主控服务器宕机同时将后续请求发送至热备主控服务器;
步骤7,主控服务器周期性检查每个爬虫节点是否均有发送存活信息;是则,执行步骤9;否则,将未发送存活信息的爬虫节点移除出爬虫采集服务集群并执行步骤8;
步骤8,主控服务器从爬虫采集服务集群中重新选定新的爬虫节点并下发采集任务并执行步骤3;
步骤9;接收选定爬虫节点的任务反馈判断当前采集任务是否完成;是则,结束当前采集任务;否则,执行步骤4。
6.根据权利要求6所述的一种可扩展型分布式热拔插部署网络爬虫服务模型的控制方法,其特征在于:步骤1中当任务下发中心下发采集任务超时,则下发采集任务至热备主控服务器。
7.根据权利要求6所述的一种可扩展型分布式热拔插部署网络爬虫服务模型的控制方法,其特征在于:步骤2中主控服务器从爬虫采集服务集群中当前周期标识为存活的爬虫节点选定执行采集任务的爬虫节点。
8.根据权利要求6所述的一种可扩展型分布式热拔插部署网络爬虫服务模型的控制方法,其特征在于:步骤5中主控服务器先判断发送通知的爬虫节点是否在爬虫采集服务集群中;是则,更新存活信息;否则,将该爬虫节点添加至爬虫采集服务集群再更新存活信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电福富信息科技有限公司,未经中电福富信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110604575.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据中心机房环境监控系统
- 下一篇:生物芯片杂交生化反应器