[发明专利]爬虫调度管理平台通信方法和爬虫调度管理平台系统在审

专利信息
申请号: 202011302154.8 申请日: 2020-11-19
公开(公告)号: CN112416550A 公开(公告)日: 2021-02-26
发明(设计)人: 刘明东 申请(专利权)人: 广州探途网络技术有限公司
主分类号: G06F9/48 分类号: G06F9/48;G06F9/54;G06F11/30;G06F16/951
代理公司: 北京中知君达知识产权代理有限公司 11769 代理人: 李辰;黄启法
地址: 510000 广东省广州市海珠区*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 爬虫 调度 管理 平台 通信 方法 系统
【说明书】:

本申请是关于爬虫调度管理平台通信方法和爬虫调度管理平台系统。该方法由负责下达和发送爬虫任务的主节点、负责执行爬虫任务的工作节点和负责数据存储的数据存储节点执行,工作节点主机发送包含本机唯一标识信息到数据存储节点;数据存储节点根据唯一标识信息在本地数据库中查找对应的工作节点信息;确认本地数据库中没有对应的工作节点信息,则将工作节点信息加入到本地数据库中;将工作节点信息发送至主节点以供主节点使用工作节点信息与工作节点进行通信。本实施例通过工作节点主动将自身信息存储于数据存储节点的方法,确保工作节点能够成功注册,进而保证了主节点与工作节点的通信稳定性。

技术领域

本申请涉及数据管理技术领域,尤其涉及爬虫调度管理平台通信方法和爬虫调度管理平台系统。

背景技术

相关技术中爬虫调度管理平台架构包括了一个主节点和多个工作节点、负责通信的Redis和负责数据储存MongoDB数据库。前端应用向主节点请求数据,主节点通过MongoDB和Redis来执行任务派发调度以及部署,工作节点收到任务之后,开始执行爬虫任务,并将任务结果储存到MongoDB。这种平台架构存在如下两个技术问题,第一:windows机使用go语言注册工作节点时,有时候无法获取工作节点的信息而导致工作节点无法注册,进而导致主节点与工作节点无法通信。第二:工作节点任务量过大容易假死导致定时任务挤压,从而导致爬虫任务执行效率下降。

发明内容

为克服相关技术中存在的问题,本申请提供爬虫调度管理平台通信方法和爬虫调度管理平台系统,该方法能够解决主节点与工作节点无法通信的问题。

本申请第一方面提供爬虫调度管理平台通信方法,方法由负责下达和发送爬虫任务的主节点、负责执行爬虫任务的工作节点和负责数据存储的数据存储节点执行,工作节点主机发送包含本机唯一标识信息到数据存储节点;数据存储节点根据唯一标识信息在本地数据库中查找对应的工作节点信息;确认本地数据库中没有对应的工作节点信息,则将工作节点信息加入到本地数据库中;将工作节点信息发送至主节点以供主节点使用工作节点信息与工作节点进行通信。

其中,方法还包括:确认本地数据库中有对应的工作节点信息,则将工作节点信息发送至主节点以供主节点使用工作节点信息与工作节点进行通信。

其中,方法还包括:预设阈值时间发送心跳信息来检测工作节点和主节点是否离线。

其中,唯一标识信息为MAC地址。

其中,方法还包括:主节点读取数据存储节点的工作节点信息;发送爬虫任务给工作节点;启动新的监听线程监听工作节点工作情况,其中,监听线程在到达预设时间爬虫任务还未执行情况下,执行进程杀死动作以终止爬虫任务的执行。

本申请第二方面提供一种爬虫调度管理平台系统,包括:负责下达和发送爬虫任务的主节点、负责执行爬虫任务的工作节点和负责数据存储的数据存储节点,工作节点还用于发送包含本机唯一标识信息到数据存储节点;数据存储节点还用于根据唯一标识信息在本地数据库中查找对应的工作节点信息和确认本地数据库中没有对应的工作节点信息,则将工作节点信息加入到本地数据库中;主节点还用于通过本地数据库的工作节点信息与工作节点进行通信。

其中,数据存储节点还用于到预设阈值时间发送心跳信息来检测工作节点和主节点是否离线。

其中,上述系统还包括数据通信节点,数据通信节点,用于启动新的监听线程监听工作节点工作情况,其中,监听线程在到达预设时间爬虫任务还未执行情况下,执行进程杀死动作以终止爬虫任务的执行。

其中,还包括备份节点,备份节点与主节点功能相同,如果主节点出现通信故障,则由备份节点暂时执行主节点的任务。

备份节点与主节点定时同步数据和信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州探途网络技术有限公司,未经广州探途网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011302154.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top