[发明专利]云端混合加速器的调度方法、计算机设备及存储介质在审
申请号: | 202310600324.8 | 申请日: | 2023-05-25 |
公开(公告)号: | CN116627645A | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 彭信民;李翔;叶永青;李华毅 | 申请(专利权)人: | 上海燧原科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N20/00 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 倪焱 |
地址: | 201306 上海市浦东新区中国(上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 云端 混合 加速器 调度 方法 计算机 设备 存储 介质 | ||
1.云端混合加速器的调度方法,其特征在于,包括:
接收客户端发送的模型并行值;
根据所述模型并行值和异构的加速器资源确定环境变量;
根据所述环境变量确定加速器拓扑信息;
根据所述拓扑信息和所述环境变量调度加速器执行模型训练任务。
2.根据权利要求1所述的方法,其特征在于,所述根据所述模型并行值和异构的加速器资源确定环境变量,包括:
根据预设并行规则,结合所述模型并行值和异构的加速器资源确定流水并行值和张量并行值;所述预设并行规则包括:节点内张量并行或节点间流水并行。
3.根据权利要求2所述的方法,其特征在于,所述根据预设并行规则,结合所述模型并行值和异构的加速器资源确定流水并行值和张量并行值,包括:
根据加速器代际数量、每代加速器包含的计算节点数量确定流水并行值;
根据所述模型并行值和所述流水并行值确定张量并行值。
4.根据权利要求3所述的方法,其特征在于,所述模型并行值为所述流水并行值与所述张量并行值的乘积,所述张量并行值不大于单个计算节点内加速器数量。
5.根据权利要求2所述的方法,其特征在于,所述根据所述环境变量确定加速器拓扑信息,包括:
获取计算节点上报的计算节点与加速器的对应关系;
对加速器进行重命名,得到全局加速器序列;
根据所述全局加速器序列、所述流水并行值和所述张量并行值进行拓扑排序,得到加速器拓扑信息。
6.根据权利要求5所述的方法,其特征在于,所述根据所述全局加速器序列进行拓扑排序,得到加速器拓扑信息,包括:
根据总加速器数量、流水并行值和张量并行值确定数据并行值;
根据总加速器数量和数据并行值确定每个加速器数据分块包含的加速器数量;
根据单个加速器数据分块包含的加速器数量和流水并行值确定每个加速器分组包含的加速器数量;
根据数据并行值、流水并行值、张量并行值和每个加速器分组包含的加速器数量,对全局加速器序列进行排序,使计算节点按逻辑分组数量与流水并行值对应,计算节点内部的加速器分组数量与张量并行值对应,加速器数据分块数量与数据并行值对应。
7.根据权利要求6所述的方法,其特征在于,在根据所述模型并行值和异构的加速器资源确定环境变量之前,还包括:
判断是否接收到客户端发送的指定加速器规格;
若指定加速器规格,则根据用户申请的加速器规格筛选得到加速器资源;
若未指定加速器规格,则将所有加速器按规格由高到低进行分组排序,得到加速器资源。
8.根据权利要求1所述的方法,其特征在于,在接收客户端发送的模型并行值之前,还包括:
接收计算节点发送的加速器信息;
根据不同版本的加速器信息确定加速器算力;
根据所述加速器算力对加速器进行排序,得到有序的加速器资源。
9.根据权利要求1所述的方法,其特征在于,所述根据所述拓扑信息和所述环境变量调度加速器执行模型训练任务,包括:
根据拓扑信息调度计算节点获取所述加速器所对应的镜像文件;
在节点中挂载训练程序和加速器资源;
启动训练程序,通过环境变量方式向所述计算节点发送加速器的重命名编号;
所述计算节点根据所述重命名编号标记加速器;
通过分布式训练架构根据加速器类型对预设模型进行训练。
10.根据权利要求9所述的方法,其特征在于,所述通过分布式训练架构根据加速器类型对预设模型进行训练,包括:
用户程序根据加速器类型对DAG模型进行动态编译,得到适用于所述加速器类型的二进制文件;
在加速器中执行所述二进制文件,实现预设模型训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海燧原科技有限公司,未经上海燧原科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310600324.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能行车系统
- 下一篇:一种用于蚕养殖的病原检测装置及检测方法