[发明专利]Pull模式与Push模式相结合的资源管理与作业调度方法、系统有效
申请号: | 202010290642.5 | 申请日: | 2020-04-14 |
公开(公告)号: | CN111506407B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 陈志广;卢宇彤 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | pull 模式 push 相结合 资源管理 作业 调度 方法 系统 | ||
本发明公开了一种Pull模式与Push模式相结合的资源管理与作业调度方法、系统及介质,本发明包括对作业进行解析或识别确定类型并分类型进行调度,针对高性能计算作业,采用Push模式进行分发:为该高性能计算作业分配计算节点、将该高性能计算作业推送给被分配的计算节点执行;针对大数据处理作业,采用Pull模式进行分发:等待计算节点的作业请求,且在计算节点主动发出作业请求时将该大数据处理作业发送给主动发出作业请求的计算节点执行。本发明能够分散传统系统中主节点的工作负载,降低其带来的瓶颈效应,并提升系统的资源利用率,本发明具有通用性好、资源利用率高、系统吞吐率高、可扩展性好的优点。
技术领域
本发明涉及大规模计算机系统的资源管理与作业调度领域,具体涉及一种Pull模式与Push模式相结合的资源管理与作业调度方法、系统及介质。
背景技术
资源管理与作业调度一直是大规模计算系统中的一项挑战性问题。当前,计算系统的规模越来越大,如神威·太湖之光超级计算机由4万计算节点组成,处理器核数达到千万量级;随着“CPU+加速器”模式的盛行,计算系统内部普遍表现出异构性,如当前最快的Summit超级计算机每个节点含有6个GPU;由于大规模计算已成为促进各行业技术进步的基本手段,大量特性各异的作业被提交到计算系统中,导致无序的资源竞争。在以上复杂场景下,针对异构系统的高效率高时效资源管理与作业调度面临巨大的挑战。
资源管理与作业调度是计算机系统研究领域的一个经典话题。现有的与本发明功能相似的大规模资源管理与作业调度系统主要包括早期由NASA开发的NQS和PBS系统、由IBM开发的LSF系统、以及当前在超级计算机TOP500中使用最广泛的Slurm开源调度系统等。这些大规模资源管理与作业调度系统的共性都是面向高性能计算而研发。
NQS(Network Queueing System)是由美国NASA主导开发的一个批处理队列系统。它提供对批处理请求和设备请求的支持,支持底层Unix核心所实现的资源限制功能,并将资源限制与批处理请求和批处理队列相关联。NQS主要由nqsdaemon、logdaemon、netshepherd、netdaemon、netclient、reqserver、pipeclient、rrpipeclient、lbpipeclient九大模块组成。按照功能划分,它们主要分别负责请求、日志、网络等等方面的工作。
PBS(Portable Batch System)是由美国NASA开发的作业管理系统。PBS支持多种操作平台,支持批处理、交互式作业和串行多种并行作业。PBS由server、mom、scheduler模块和命令工具集组成。Server是管理模块,负责用户任务的管理、提交、保障整个作业管理系统的稳定运行。mom是作业执行模块,也叫作业执行器,是一个守护进程,负责将用户提交的作业放入执行队列,并在作业运行后将作业的输出返回给用户,一个PBS系统可以存放在多个不同mom,以通过不同的作业调度策略满足不同的用户需求。Scheduler是作业调度模块,也叫作业调度器,负责调度执行队列中的作业应该什么时候运行、在哪个节点运行、以什么方式运行,它可以和不同的mom通信并获取执行队列状态,然后通过server验证作业有效性,最后根据调度策略进行作业调度。PBS的命令工具集主要用于作业的提交、监视、修改和删除。
LSF(Load Sharing Facility)是由加拿大的Platform公司开发的一个分布式资源管理的工具,用来调度、监视、分析联网计算机的负载。目的是通过集中监控和调度、充分共享计算机的CPU、内存、磁盘等资源。LSF采用松耦合结构,主要由LSF Base、LSF Batch、LSF Job-scheduler、LSF Multi-Cluster和LSF Analyzer五个部分组成。其中,LSF Base提供动态的负载管理和透明的资源访问,LSF Batch提供异构环境下的作业调度处理,LSFJob-scheduler提供基于计算节点的由时间驱动的作业调度,LSF Multi-Cluster支持网络联通的多台超级计算机的资源共享,LSF Analyzer负责作业的全面数据分析,并生成记账报告。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010290642.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于人工智能的物联网数据的采集分析系统
- 下一篇:一种机箱