[发明专利]一种去中心化的跨集群资源管理与任务调度系统与调度方法有效
申请号: | 201210580401.X | 申请日: | 2012-12-27 |
公开(公告)号: | CN103207814B | 公开(公告)日: | 2016-10-19 |
发明(设计)人: | 吴增巍;王琪 | 申请(专利权)人: | 北京仿真中心 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京正理专利代理有限公司 11257 | 代理人: | 张雪梅 |
地址: | 100854 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中心 集群 资源管理 任务 调度 系统 方法 | ||
技术领域
本发明涉及一种跨集群的资源管理与任务调度系统与调度方法,特别是涉及一种去中心化的跨集群资源管理与任务调度系统与调度方法。
背景技术
单集群作业调度程序已经实现了单集群的作业调度及负载均衡,一旦作业过多,所需计算资源大于集群的现有资源,将造成低优先级作业的等待,势必影响用户的使用体验,因此,寻求一种跨集群资源管理与任务调度方法十分必要。跨集群资源管理和作业调度分为中心化管理调度和去中心化作业管理调度,中心化管理调度存在中心失效导致系统整体瘫痪的问题,而且中心集群的安全也直接影响系统中其他集群的安全,而去中心化管理调度是一种网状结构,单集群的问题不会影响整体系统,因此,需要寻找一种提高作业调度的效率,节省数据传输时间的去中心化的跨集群资源管理与任务调度方法。
发明内容
针对以上发明的目的在于提供一种去中心化的跨集群资源管理与任务调度系统与调度方法,以解决作业所需资源大于集群已有资源时,作业的执行效率问题。
每个集群系统都可成为一个自组织和自管理的子系统,同时多个集群又可联合起来构成一个网状的系统进行统一管理和使用。此过程对用户是透明的,用户无需关心其任务在哪台主机或哪个集群中运行,只需通过Web页面进行简单的作业提交即可使用多个集群中庞大的计算资源。系统分为三个模块,分别为:个性化门户、资源监控器和任务管理器。个性化门户是一个web门户页面,提供给用户一个提交任务的界面,负责与用户交互。资源监控器负责本地集群及远端集群的资源监控,资源监控为任务分发提供依据。任务管理器负责任务执行和任务分发,在本地资源满足任务要求的前提下,任务管理器优先将任务调度至本地集群执行,在本地资源不足而外集群资源充足的情况下,任务管理器将任务分发,调度至别的集群执行任务,并在任务完成后收回结果文件。系统运行过程分为以下三个部分:
一、本地集群资源的管理和任务执行
由于带宽等因素的制约,用户提交任务将优先使用本地资源。本地集群中的资源包括硬件资源、软件资源和服务资源三类,由资源管理中心进行统一管理和使用。集群中的资源可动态变化,即支持资源的随时移入和移出。用户提交的后,任务管理器向资源管理中心提出查询请求,资源管理中心收集集群内资源信息,并将结果返回给任务调度器。本地资源可以满足需求时,任务由任务管理器加入任务队列,等待分配资源执行,执行完毕后通知用户并将结果返回。
二、本地资源不足时,跨集群使用远程资源
当出现以下几种情况,将使用跨集群的资源:1.本地集群没有任务执行所需的资源。如任务需要使用ansys软件,本地资源没有,而其它集群有此类软件。2.本地负载过重。如任务排队现象过于严重。此时,资源管理中心则与其他集群的资源管理中心进行通讯,收集其它集群的状态信息,为任务的跨集群调度提供数据支持。
三、将任务调度至其他集群执行并进行管理
本地集群的资源无法满足任务的需求时,任务管理器将根据其它集群资源管理中心反馈回的结果择优挑选目的集群,进行跨集群的任务调度。任务将由其他集群的任务管理器加入其任务队列。本地的任务管理器也可对其调度出的任务进行kill、结果取回等操作。对于运行时间较长的任务,还可以随时取回中间结果以方便用户核对与使用。
跨集群作业调度模块完成的任务是将本地集群排队的作业合理地分配到其他集群计算,待作业完成后,能够快速及时地获取作业结果。跨集群作业调度模块遵循集群间负载均衡的原理,实现跨集群作业调度策略。跨集群作业调度策略将综合考虑集群间的物理距离,网络传输速度,各集群计算能力等因素。跨集群作业调度模块的主要功能有:
(1)作业控制:支持用户对其提交作业的控制,包括对作业的提交、删除、修改和监视功能以及用户对作业结果的取回。此外还支持管理员对用户提交作业的全局管理功能。
(2)作业处理辅助:为作业处理提供前期准备和后续支持,包括建立批处理作业,将处理作业加入执行队列,定时记录作业处理情况、将作业结果存放至指定位置,便于用户取回等功能。
(3)作业处理控制:根据用户需求,对作业的处理进行控制,包括对作业计算时间、占用CPU数目、占用内存大小、存储数据大小等进行控制。
(4)高效的调度策略:由于计算能力、用户需求不同,提供对作业优先级、资源使用优先级、用户份额控制,保证用户满意度和资源的使用效率。
(5)负载均衡:分布式和并行计算时,应考虑负载均衡问题,跨集群作业调度模块可以根据各集群的负载情况,综合考虑数据传输效率,为等待作业分配计算资源,确保作业的运行效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京仿真中心,未经北京仿真中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210580401.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:提高芯片性能的方法
- 下一篇:一种安全灵活的固件升级方法