[发明专利]分布式调度方法及装置、电子设备以及计算机存储介质有效
申请号: | 201910564952.9 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110245023B | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 冯若寅;万仕龙;邹晓峰 | 申请(专利权)人: | 欧冶云商股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京律和信知识产权代理事务所(普通合伙) 11446 | 代理人: | 冷文燕;项荣 |
地址: | 201999 上海市宝山区漠*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 调度 方法 装置 电子设备 以及 计算机 存储 介质 | ||
1.一种分布式调度方法,用于对大数据平台中的任务进行调度,其特征在于,
所述大数据平台中的分层任务包括:
数据采集任务,从业务系统采集数据,得到数据集;
数据清理计算任务,对于所述数据集计算其中需要清理的数据;
明细数据计算任务,以对所述数据集中的明细数据进行计算;
应用数据计算任务,以对所述数据集中的应用数据进行计算,
所述分布式调度方法包括如下步骤:
步骤S1,确定需要调度的计算任务的范围,生成初始任务集合;
步骤S2,分析写入所述初始任务集合中的计算任务的结构化查询语言语句,将引用的数据表和视图对象的名称进行标注,并将其应用对象进行汇总,以将所有初始任务集合中的任务的上游引用对象的任务进行层层统计,并按上下游顺序进行排列;
步骤S3,对每个任务的内存和处理器开销进行估算,通过资源开销评估算法计算各自分值,并按照分值进行排序以生成执行任务集合,所述步骤S3包括:
步骤S31:输出所有计算任务的执行计划日志;
步骤S32:解析所输出的执行计划日志中的资源开销信息,将每个应用数据计算任务的开销分类,
统计日志内容中的单个计算任务的处理器资源开销x,
统计日志内容中的单个计算任务在数据平台每个计算节点的内存开销量,进行算数相加得到内存开销量y,
统计日志内容中的单个任务在分布式文件系统的扫描总字节数,进行算数相加得到存储资源扫描量z,
此后,依照下述三元二次计算公式计算各个应用数据计算任务的资源开销:
其中,系数n为分布式系统运行节点总数,x为处理器资源开销,y为内存开销量,z为存储资源扫描量;
步骤S33,对同一批分层的计算任务按资源开销f(x,y,z)进行倒序排列,分配方法以任务总数为被除数,计算节点数(n-1)为除数,余数记录为变量c,
如果任务总数小于等于(n-1),则将任务名顺序分配至每个节点的执行任务集合,
如果任务总数大于(n-1),则将排序队列末尾的c个任务分给第(n-1)号执行任务集合,剩余倒序队列的任务按顺序循环分配到(n-1)个执行任务集合;
步骤S4,将所述执行任务集合中的所述任务,分配到所述大数据平台的多个计算节点以由多个所述计算节点执行各自的任务。
2.根据权利要求1所述的分布式调度方法,其特征在于,还包括如下步骤:
步骤S5,在所述步骤S1至所述步骤S4中,生成计算任务日志文件和告警日志文件。
3.根据权利要求1所述的分布式调度方法,其特征在于,所述步骤S1中,当存在新增任务发布时,则重新确认所述需要调度的计算任务的范围,更新所述初始任务集合。
4.根据权利要求1所述的分布式调度方法,其特征在于,所述步骤S3中,所述资源开销评估算法依照木桶原理计算各自分值。
5.根据权利要求1所述的分布式调度方法,其特征在于,所述步骤S4中,将所述执行任务集合中的任务均衡分配到所述大数据平台的多个计算节点以由多个所述计算节点执行各自的任务。
6.根据权利要求1所述的分布式调度方法,其特征在于,所述步骤S4中,对系统节点的组件资源池以外的可分配资源进行测算,并根据所述可分配资源分配所述执行任务集合中的任务。
7.根据权利要求6所述的分布式调度方法,其特征在于,系统后台运行有监控进程,以预定的时间间隔查询资源运行情况,以获得基础资源开销量,并基于下述算式计算所述可分配资源:
可分配资源=总资源量-基础资源开销量。
8.根据权利要求6所述的分布式调度方法,其特征在于,根据所述可分配资源,将内存和处理器计算资源的开销情况分开来进行考虑分配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于欧冶云商股份有限公司,未经欧冶云商股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910564952.9/1.html,转载请声明来源钻瓜专利网。