[发明专利]一种高性能计算用户配额的智能调优方法有效
申请号: | 202110258572.X | 申请日: | 2021-03-09 |
公开(公告)号: | CN113032143B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 侯正雄;王云岚;谷建华;赵天海;李秀春 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 刘新琼 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 性能 计算 用户 配额 智能 方法 | ||
本发明涉及一种高性能计算用户配额的智能调优方法,属于高性能计算集群的资源管理与作业调度技术领域。包括以下步骤:周期性获取当前资源利用率和所有用户的作业运行情况;如果有空闲CPU核,并有被禁止的作业,判断是否增大有被禁止作业的用户的配额;基于作业动态优先级选择优先调整的用户;如果没有空闲CPU核,并有排队作业,判断是否减少用户的配额值;基于智能调优算法,修改被选定用户的最大作业数、最大排队作业数和最大处理器数,实现用户配额的智能化增加或减少。本发明方法既可以提高高性能计算系统的资源利用率和能源效率。
技术领域
本发明涉及一种Linux高性能计算集群中基于策略的用户配额智能调优方法,属于高性能计算集群的资源管理与作业调度技术领域。
背景技术
中小规模的Linux高性能计算集群非常普及,在很多大学、科研院所、实验室等都有部署。由于用户较多,资源有限,一些常用的资源管理与作业调度软件,例如OpenPBS和Maui会对高性能计算用户进行配额,限制一个用户能够占用的最大CPU核数、运行的最大作业数和最大排队的作业数等。但是,众多用户使用高性能计算的集群资源具有很强的动态性,在集群负载较轻时,限制一些用户的作业不能运行,导致集群资源利用率低,一些空闲节点在消耗能源却没有产出,而有的作业却在等待。如果对某些用户的配额很高,又可能导致少数用户把高性能计算集群资源都占用了,其他用户不能使用,等待时间非常长。因此,对于用户的配额需要有一个权衡。
现有技术基本是人工调整和优化用户的配额,需要人工不断的监视,人力成本高,而且调优受人为因素影响,缺乏系统性和统一标准,调优效果存在不足。
发明内容
要解决的技术问题
本发明针对高性能计算用户配额可能带来的资源利用率低、浪费能源或者用户等待时间过长等问题,本发明提出一种高性能计算用户配额的智能调优方法。
技术方案
一种高性能计算用户配额的智能调优方法,其特征在于步骤如下:
步骤1:周期性获取当前资源利用率和所有用户的作业运行情况;具体包括当前正在运行的作业和数量、排队的作业和数量、被禁止的作业和数量,并获取计算节点总数、CPU核总数、已经被使用的计算节点数量、已经被使用的CPU核数量、空闲的节点数、空闲的CPU核数;
步骤2:如果当前有空闲资源以及被禁止的作业,则查询被禁止用户的配额,决定是否增加有被禁止作业的用户的配额;如果有多个用户的作业被禁止,则计算被禁止作业的动态优先级,作业动态优先级最高的用户,优先被调整配额;
步骤3:如果当前没有空闲资源,并有排队作业,则查询排队用户的作业情况以及正在运行作业的用户配额情况,决定是否减少有运行和排队作业的用户的配额;
步骤4:基于智能调优算法,修改被选定用户的最大作业数、最大排队作业数和最大处理器数,实现用户配额的智能化增加或减少。
本发明技术方案更进一步的说:步骤1中通过使用Maui的showq命令获取当前资源利用率和所有用户的作业运行情况。
本发明技术方案更进一步的说:步骤2中如果有多个用户的作业被禁止,并都可以增大配额;基于作业动态优先级的用户选择算法,选择优先调整的用户:
定义1-用户角色:设集群用户的集合为U,用户角色的集合为R,则存在一个从U到R的映射f,使得用户u的角色为f(u)=r;
定义2-基于角色的配额:存在从R到N的映射C(r,s),C(r,h),Qr,Jr,C(r,s)称之为角色r的CPU核心软配额,C(r,h)称之为角色r的CPU核心硬配额,即上限,Qr称之为角色r的排队作业数配额,Jr称之为角色r的运行作业总数配额;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110258572.X/2.html,转载请声明来源钻瓜专利网。