[发明专利]提高在线服务质量和集群资源利用率的混合调度系统有效
申请号: | 201811366342.X | 申请日: | 2018-11-16 |
公开(公告)号: | CN109347974B | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 胡春明;肖俊青;朱建勇;邵凯阳;屈曦明 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提高 在线 服务质量 集群 资源利用率 混合 调度 系统 | ||
本发明提出一种提高在线服务质量和集群资源利用率的在线离线混合调度系统,包括信息采集模块,在线AM模块,离线AM模块,客户端模块,调度器模块;所述信息采集模块收集系统中各在线服务之间的调用关系,并存储到Redis中;当用户提交在线应用时,所述在线AM模块解析每个组件的依赖关系,并将所述组件按照所述依赖关系依次部署在集群中;当用户提交离线作业时,所述离线AM模块向RM申请资源,并将离线作业调度到集群中运行;所述客户端模块解析处理用户提交的作业,将所述作业转化为对应的请求向RM申请资源,并负责拉起所述在线AM模块向客户展示应用运行情况;所述调度器模块位于RM中,所述调度器模块会定时根据所述在线AM模块汇报的各容器关键度计算各服务器节点的关键度,并在调度离线作业时根据所述计算出的服务器关键度进行调度。
技术领域
本发明涉及集群资源任务调度领域,主要涉及一种提高在线服务质量和集群资源利用率的在线离线混合调度系统。
背景技术
随着云计算技术的蓬勃发展,越来越多的计算和应用托管在共有云上。通过云平台,用户可以快速方便地将简单的应用扩展为大型的复杂应用,并且按需付费,在每个时间节点仅支出与其规模相当的成本。而供应商可以通过构建大规模数据中心和多租户共享资源等方式来获得规模经济效益。
然而,大多数云设施中的集群资源利用率非常低下,这极大地降低了成本效率。研究人员为Twitter上的一个数千台规模的生产集群进行了资源利用率分析,这个集群使用Mesos管理一个月,主要托管面向用户的、延迟敏感的在线服务。分析结果表明,CPU的总利用率始终低于20%,即使查看单个服务器,它们中的绝大多数在任何一周的CPU利用率都不超过50%。另一份研究结果表明,使用更成熟的Borg系统管理的12000台服务器规模的Google集群的CPU 利用率为25%,内存利用率为40%。服务器集群需要高昂的电力、网络和维护费用,低资源利用率意味着数据中心中的大量服务器处于空闲状态,将产生巨量的经济损失。
另一方面,世界正在加速进入数据爆炸的时代。大数据处理的规模已经从 TB级别进入到PB级别,随着物联网技术的蓬勃发展,未来将达到ZB甚至更高的级别。为了从这些海量的、异构的数据中挖掘价值、训练模型,大数据处理技术在不断演进,从Google提出MapReduce计算模型,到集群资源管理框架 Apache Mesos和Apache Hadoop YARN、内存计算框架Spark、容器管理框架 Kubernetes。但是,计算框架仅仅提供了工具,为了处理海量数据,仍需要大量CPU和内存提供足够的计算能力。面对巨大的计算能力缺口,现有的离线计算集群已经满负荷运行,仍无法满足需求。
在线服务和离线作业具有诸多不同的特征。在线服务(比如电子商务网站) 是延迟敏感的,并且其业务量与时间密切相关,白天的流量会明显高于夜晚。离线作业(比如训练机器学习模型)是延迟不敏感的,其本身的处理时间就在分钟级以上,甚至小时级、天级。并且离线作业与时间的关系不明显,全天时间都可以进行计算。研究人员分析负载特征发现,在线服务和离线作业具备压力错峰和资源错峰的条件,可以在一个统一的集群资源管理系统中混合调度,以提高集群资源利用率,减少资源浪费。然而,现有的研究成果中,在调度离线作业时,缺乏对在线服务运行状态的感知,可能将离线作业调度到对用户体验影响非常大的节点上,从而影响关键在线服务的响应时间。由于在线服务是延迟敏感的,不能容忍服务质量的大幅度下降,因此研究能够保障在线服务服务质量的混合调度方法势在必行。
现有的集群调度管理系统Apache Hadoop YARN支持调度离线作业,它可以将大作业切分为小作业调度到集群中的不同服务器上计算,并通过汇总得到最终结果。然而现有技术仅支持调度离线作业,不能足现代数据中心同时混合调度在线服务和离线作业的需要;对于系统中部署的多个组件,有的非常繁忙,而有的十分空闲,缺乏一种准确的方法定位系统中对用户体验影响最大的关键组件;另外,系统中没有考虑对这些关键组件进行优待,缺乏一种保障在线服务质量的方法。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811366342.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种客户端即时通讯方法及系统
- 下一篇:车联网低时延通信方法、终端及系统