[发明专利]一种AI平台训练任务调度的方法、装置、设备及介质在审
申请号: | 202111604321.9 | 申请日: | 2021-12-24 |
公开(公告)号: | CN114443278A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 袁利杰 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 杨帆;宋薇薇 |
地址: | 215000 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 ai 平台 训练 任务 调度 方法 装置 设备 介质 | ||
本发明提供了一种AI平台训练任务调度的方法和装置,该方法包括:响应于AI平台中待训练任务的等待时间超过预设时间,分别计算超过预设时间的训练任务以及后面的训练任务的预估训练时间;基于每个任务对应用户的排队任务数量和用户正在运行任务数量的比例由大到小将每个任务进行排序以形成第一序列;基于每个任务对应用户已运行的训练任务所使用的计算资源数目由多到少进行排序以形成第二序列;基于每个任务的预估训练时间由大到小进行排序以形成第三序列;基于每个任务在第一序列、第二序列和第三序列中的得分和权重计算每个任务的最终得分,并基于最终得分将任务的顺序进行排序。通过使用本发明的方案,能够提高训练平台的效率。
技术领域
本发明涉及计算机领域,并且更具体地涉及一种AI平台训练任务调度的方法、装置、设备及可读介质。
背景技术
随着算力、算法、数据的不断更新与发展,人工智能技术被应用在了生活的方方面面。从智慧城市、金融支付、自动驾驶等等生活场景都可以看到人工智能技术的影子。为了加速相关人工智能应用与技术的更新迭代,企业、科研院校都在训练精度更高、鲁棒性更强的AI模型。在AI模型训练这一领域,业界通常基于服务器搭建训练集群,采用容器相关技术,由算法人员为训练任务指定所需的资源,训练平台通过相应的调度算法将任务调度合适的节点,进行模型的训练与生成。在较大规模集群资源和较多使用租户的情况下,如何保证所有用户提交的任务都能被调度且进行有效的训练,是相关AI训练平台必须解决的难题。
对于不同的AI业务训练场景,不同的算法人员所用的深度学习框架、每个任务申请的资源以及训练任务的训练选时间等都是不尽相同。随着平台内不同租户提交的任务越来越多,在有限的集群资源下,一定会出现不同租户的有的任务在运行,有的任务在排队等待运行。并且这些任务当中,有的任务申请的资源多,有的任务申请的资源少。在这种情况下,AI训练平台需要保证不同租户提交的训练任务都有被调度开始训练的可能。在实际情况中,通常遇到的客户是物理计算资源相对有限,且租户以及其提交的任务数目都相对较多,因此,在AI训练平台中会存在较多的排队任务,当前许多AI训练平台的调度机制是基于资源的匹配与任务提交的先后顺序进行调度的。如果在集群计算资源不够的情况下,租户提交的训练任务将会处于排队等待中,这种情况下,若其他租户之后提交的训练任务所申请的资源到小于此租户训练任务申请的资源,在计算资源使用紧张的情况下。则会出现有租户的训练任务一直排队等待中。
发明内容
有鉴于此,本发明实施例的目的在于提出一种AI平台训练任务调度的方法、装置、设备及可读介质,通过使用本发明的技术方案,能够更好地调度训练任务,提高平台任务吞吐量,能够避免提交的训练任务长时间排队,能够提高调度的公平性,保证不同租户的训练任务都可以使用平台,提高训练平台的效率。
基于上述目的,本发明的实施例的一个方面提供了一种AI平台训练任务调度的方法,包括以下步骤:
响应于AI平台中待训练任务的等待时间超过预设时间,分别计算超过预设时间的训练任务以及后面的训练任务的预估训练时间;
基于每个任务对应用户的排队任务数量和用户正在运行任务数量的比例由大到小将每个任务进行排序以形成第一序列;
基于每个任务对应用户已运行的训练任务所使用的计算资源数目由多到少进行排序以形成第二序列;
基于每个任务的预估训练时间由大到小进行排序以形成第三序列;
基于每个任务在第一序列、第二序列和第三序列中的得分和权重计算每个任务的最终得分,并基于最终得分将任务的顺序进行排序。
根据本发明的一个实施例,响应于AI平台中待训练任务的等待时间超过预设时间,分别计算超过预设时间的训练任务以及后面的训练任务的预估训练时间包括:
建立完成训练任务的实际时间和用户输入的预估时间的差值对应的权重的对应表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111604321.9/2.html,转载请声明来源钻瓜专利网。