[发明专利]一种面向混合负载基于容器的集群资源管理方法及系统在审
申请号: | 202011412657.0 | 申请日: | 2020-12-03 |
公开(公告)号: | CN112395052A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 童薇;冯丹;于金玉;吕鹏泽 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F9/455 | 分类号: | G06F9/455 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 混合 负载 基于 容器 集群 资源管理 方法 系统 | ||
本发明公开了一种面向混合负载基于容器的集群资源管理方法,属于云计算集群资源管理与调度领域,包括:任务状态收集步骤,包括:获取各工作节点上运行任务的状态信息,将任务状态信息与所属作业信息合并为任务监控数据后存储到时间序列中;任务筛选步骤,包括:根据时间序列识别出Straggler任务和资源冗余任务;决策生成步骤,包括:判断集群中可分配资源是否能够满足新任务和Straggler任务扩展的资源需求,若是,则为Straggler任务制定资源扩展策略,再为被抢占任务制定资源恢复策略;否则,通过资源回收和/或抢占获得足够资源后,为Straggler任务制定资源扩展策略。本发明在尽量减少批处理任务性能损失的情况下,有效保证了混合负载部署环境中延迟敏感型应用的服务质量。
技术领域
本发明属于云计算集群资源管理与调度领域,更具体地,涉及一种面向混合负载基于容器的集群资源管理方法及系统。
背景技术
随着物联网、人工智能等新兴技术的广泛使用,为满足用户的服务需求,数据中心应用的多样性大大增加。如果使用预留资源或者专用集群的方式来保证应用的服务质量,这会使得数据中心的资源利用率较低,增加数据中心的运营与维护成本。因此数据中心开始利用工作负载的不同资源需求等特性将多种负载混合部署在同一集群中,实现多种负载共享集群资源,以提高集群资源利用率。研究发现批处理类型负载会需要大量的CPU、内存等资源,而没有延迟要求,因此批处理负载可以明显地提升集群资源利用率。例如,阿里巴巴将批处理作业与延迟敏感、面向用户的Web服务部署在同一集群中;微软必应将在线搜索服务和批量处理作业进行混合部署,其中,在线搜索任务是一种延迟敏感型任务,具有需求资源少、低延迟、高吞吐等特性;Google将具有高可靠、严格服务等级要求的企业级作业(Production Tier Jobs)和低优先级没有要求的批处理作业进行混合部署。多种负载共享集群资源同时也会存在不同级别软件堆栈上的资源竞争等潜在的性能干扰,对具有不同服务质量需求的负载存在不同程度的性能损失。由于批处理作业对其完成时间等性能没有要求,而面向用户的延迟敏感型服务则对其响应延迟有严格的要求,相较之下任务间的性能干扰则会大大增加延迟敏感型任务的完成时间,严重影响应用的服务质量。因此混合负载部署环境中如何保证面向用户的延迟敏感型应用的服务质量成为了现有集群管理系统面临的挑战。
作业是应用或者负载在集群中的逻辑实例,而一个作业通常由一个或者多个任务协同处理。作为作业的基本执行单元,任务的生命周期主要包括任务调度和任务运行两个阶段。在实际生产环境中,用户会为作业请求较多的资源,希望更快地处理完作业。然而任务运行过程中只使用了部分的分配资源,存在大量分配给任务未被使用的资源,被称作冗余资源。在大规模集群中尤其是存在大量的批处理作业时会使得集群中冗余资源占比大大增加,导致集群可分配资源匮乏,增加新任务的调度延迟。虽然基于杀死和容器暂停的资源抢占方式可以保证延迟敏感型任务的资源需求减少任务调度延迟,但是这些方法并未解决集群资源利用率低的问题,同时还会导致被抢占任务严重的性能损失。
再者属于同一个作业的各个任务之间存在依赖关系。如果作业处理过程中某个任务处理进度缓慢或者运行失败,导致对该任务有依赖的后续任务无法开始处理,这种任务被称作Straggler。研究发现80%的Straggler运行时间会比正常任务慢2-2.5倍,10%的Straggler会慢10倍之多。Straggler会拖慢作业处理的进程,使得服务产生较大的尾延迟,降低应用(特别是延迟敏感型服务)的服务质量甚至无法满足用户的服务等级目标。因此Straggler成为影响延迟敏感型应用处理性能的重要因素之一。虽然目前通过创建任务副本的方式可以解决Straggler的问题,但是创建副本丢失了任务的处理进度,同时还需要分配完整的任务资源,增加了任务的资源开销。
总体而言,现有的面向混合负载的集群资源管理方法,并不能很好地保证混合负载部署环境中面向用户的延迟敏感型应用的服务质量,同时会极大地损失批处理作业的处理性能。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011412657.0/2.html,转载请声明来源钻瓜专利网。