[发明专利]任务调度方法和装置及计算节点执行任务的方法和装置有效

专利信息
申请号: 201910565503.6 申请日: 2019-06-26
公开(公告)号: CN110262888B 公开(公告)日: 2020-11-20
发明(设计)人: 张琪琦;高光海 申请(专利权)人: 京东数字科技控股有限公司
主分类号: G06F9/48 分类号: G06F9/48;G06F16/953;G06Q30/06
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 吕朝蕙
地址: 100176 北京市大兴区北京经*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 任务 调度 方法 装置 计算 节点 执行
【说明书】:

本公开提供了一种任务调度方法,该任务调度方法包括:获取至少一个待执行任务的任务信息,该任务信息包括针对页面的至少一个请求数据;获取为所述至少一个待执行任务分配的状态信息,所述状态信息用于表征待执行任务是否执行完成;以及根据预定规则,将至少一个待执行任务的任务信息和状态信息存入预定空间。本公开还提供了一种任务调度装置,以及一种计算节点执行任务的方法和装置。

技术领域

本公开涉及互联网技术领域,更具体地,涉及一种任务调度方法和装置,以及一种计算节点执行任务的方法和装置。

背景技术

随着网络的迅速发展,互联网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。为了解决上述问题,定向爬取相关网页资源的网络爬虫技术应用而生。

在实现本公开构思的过程中,发明人发现现有技术中至少存在如下问题:网络爬虫在爬取页面的过程中,常常会进行多级页面爬取。例如从一个网站的统一资源定位符(URL)入口开始,爬取到列表页面,会有大量需要爬取的页面产生。比如一个品种的商品列表页会产生大量商品详情页面,这种情况下单线程爬取效率会很低,多线程爬取则需要一个合理的设计方案。目前常用的多线程爬取技术为:人工拆分出多个入口,每个入口启动一个线程爬取。这样的方式会导致不同的爬虫任务需要定制设置不同的线程数量,一个线程完成自己的爬虫任务后就会停止,因此无法最大限度利用机器资源。再者,在层级很深的情况下,只用不同的入口来设置线程数满足不了提高爬取效率的需求。

发明内容

有鉴于此,本公开提供了一种能够有效提高爬取效率的任务调度方法和装置,以及一种计算节点执行任务的方法和装置。

本公开的一个方面提供了一种任务调度方法,包括:获取至少一个待执行任务的任务信息,该任务信息包括针对页面的至少一个请求数据;获取为所述至少一个待执行任务分配的状态信息,该状态信息用于表征待执行任务是否执行完成;以及根据预定规则,将至少一个待执行任务的任务信息和状态信息存入预定空间。

根据本公开的实施例,上述状态信息包括表征待执行任务是否执行完成的待消费量,为至少一个待执行任务中每个待执行任务分配的状态信息包括的待消费量的值设定为预定值,该预定值为正整数。

根据本公开的实施例,上述根据预定规则,将至少一个待执行任务的任务信息存入预定空间包括:根据加密规则,将第一待执行任务的第一任务信息包括的至少一个第一请求数据加密,生成至少一个第一索引值,该至少一个第一索引值构成与第一任务信息对应的第一索引值队列;将第一索引值队列存入预定空间的第一子空间;以及将至少一个第一请求数据存入预设空间的第二子空间,形成与至少一个第一索引值一一对应的至少一个第一请求数据集合。其中,每个第一请求数据集合包括一个或多个第一请求数据,至少一个第一请求数据集合的并集包括至少一个第一请求数据,且不同的第一请求数据集合的交集为空。其中,第一待执行任务是至少一个待执行任务中的任意一个待执行任务。

根据本公开的实施例,上述任务信息还包括任务标识信息。上述根据预定规则,将至少一个待执行任务的任务信息存入预定空间还包括:将至少一个待执行任务中每个待执行任务的任务信息包括的任务标识信息存入预设空间的第三子空间;上述任务调度方法还包括:响应于停止执行第二待执行任务的操作,删除第三子空间中存储的第二待执行任务的第二任务信息包括的任务标识信息。并且/或者,上述任务调度方法还包括:响应于恢复执行第二待执行任务的操作,将第二待执行任务的第二任务信息包括的任务标识信息重新存入所述第三子空间。其中,第二待执行任务是至少一个待执行任务中的任意一个待执行任务。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数字科技控股有限公司,未经京东数字科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910565503.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top