[发明专利]一种降低计算集群的功耗的方法、系统、设备及存储介质在审
申请号: | 202010616603.X | 申请日: | 2020-06-30 |
公开(公告)号: | CN111857323A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 袁绍;辛永欣 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F1/3287 | 分类号: | G06F1/3287;G06F1/3206 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘晓菲 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 降低 计算 集群 功耗 方法 系统 设备 存储 介质 | ||
本申请公开了一种降低计算集群的功耗的方法,包括:按照预设的检测周期检测计算集群中的各个节点,当检测出任意一个节点在当前的检测时刻未运行作业,且在当前的检测时刻之前的第一时长内均未运行作业,将该节点作为被筛选出的节点;关闭各个被筛选出的节点。应用本申请的方案,可以有效地降低计算集群的功耗,又能够保障不会出现将正在运行作业的节点异常关闭的情况。本申请还提供了一种降低计算集群的功耗的系统、设备及存储介质,具有相应技术效果。
技术领域
本发明涉及集群管理技术领域,特别是涉及一种降低计算集群的功耗的方法、系统、设备及存储介质。
背景技术
随着企业对超算越来越重视,国内建造了越来越多的大型HPC(High PerformanceComputing,高性能计算)超算中心。超算中心的设备越来越多,规模越来越庞大,因此,集群的整体功耗也逐步增大,产生的电费极其昂贵,导致超算中心整体的运行成本逐步增高。
高性能集群的任务基本是一个托管状态,任务分发到整个集群中,为了降低HPC集群的整体功耗,现有的一种方案是依赖管理员监视集群的作业运行状况,手动停止没有运行作业的空载服务器,从而降低集群的整体功耗。但是,由于是管理员手动操作,管理员无法实时掌控集群内的作业运行情况,经常会出现机器长时间空转之后才被关闭的情况。并且,集群内作业数量多,且不断地变化,手动关闭、开启节点的方式只能在一定程度上降低集群功耗,还会带来人力成本的提高,或者是作业增多时管理员未及时开启被关闭的节点而导致大量作业长时间堆积,影响集群整体业务的不利情况。
目前还有的一种方式是通过运行一个shell脚本或者C程序来降低功耗,即根据节点的负载变化情况,来自动开启、关闭集群中的部分节点。但是,特别是对于HPC集群而言,某些类型的HPC作业在运行时,机器的负载增加地不多。即,通过检测集群中节点的负载情况,经常会出现误识别的情况,将正在运行作业的节点关闭,导致作业运行异常。
综上所述,如何有效地降低计算集群的功耗,又能够保障不会出现将正在运行作业的节点异常关闭的情况,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种降低计算集群的功耗的方法、系统、设备及存储介质,以有效地降低计算集群的功耗,保障不会出现将正在运行作业的节点异常关闭的情况。
为解决上述技术问题,本发明提供如下技术方案:
一种降低计算集群的功耗的方法,包括:
按照预设的检测周期检测计算集群中的各个节点,当检测出任意一个节点在当前的检测时刻未运行作业,且在当前的检测时刻之前的第一时长内均未运行作业,将该节点作为被筛选出的节点;
关闭各个被筛选出的节点。
优选的,还包括:
针对所述计算集群的任意一个计算分组,当确定出属于该计算分组的作业队列超过为该计算分组配置的作业阈值时,判断该计算分组中是否包括被关闭的节点;
如果是,则开启该计算分组中至少一个被关闭的节点。
优选的,还包括:
针对所述计算集群的任意一个计算分组,当确定出属于该计算分组的作业队列超过为该计算分组配置的作业阈值,且判断出该计算分组中不包括被关闭的节点,则输出第一提示信息。
优选的,针对所述计算集群的任意一个计算分组,当该计算分组被关闭的节点中需要被开启的节点数量超过预设的数量阈值时,通过预设的分批次开启的方式进行节点开启。
优选的,所述计算集群为HPC集群。
一种降低计算集群的功耗的系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010616603.X/2.html,转载请声明来源钻瓜专利网。