[发明专利]一种模型训练任务处理方法、装置、电子设备及可读介质在审
申请号: | 202211640768.6 | 申请日: | 2022-12-20 |
公开(公告)号: | CN116069500A | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 王维;徐玉清;曾康;范利成 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06V10/774 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 任亚娟 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 任务 处理 方法 装置 电子设备 可读 介质 | ||
1.一种模型训练任务处理方法,其特征在于,应用于任务处理系统,所述任务处理系统与至少一个图形处理器集群通信连接,所述图形处理器集群中包含至少一个图形处理器,包括:
获取用户提交的模型训练任务和所述图形处理器集群当前的空闲算力资源;所述模型训练任务包含环境配置信息以及数据集;
根据所述环境配置信息部署所述模型训练任务的执行环境;
根据所述数据集的大小、所述环境配置信息以及所述图形处理器集群当前的空闲算力资源,确定用于处理所述模型训练任务的至少一个目标图形处理器;
采用所述执行环境以及所述目标图形处理器处理所述模型训练任务。
2.根据权利要求1所述的方法,其特征在于,所述环境配置信息包括操作系统类型,深度学习框架类型,编程语言类型;所述任务处理系统中存储有至少一种类型的操作系统环境,至少一种类型的深度学习框架环境,至少一种类型的编程语言环境;
所述根据所述环境配置信息部署所述模型训练任务的执行环境的步骤,包括:
调用所述操作系统类型对应的目标操作系统环境,所述深度学习框架类型对应的目标深度学习环境,所述目标编程语言类型对应的目标编程语言环境部署所述模型训练任务的执行环境。
3.根据权利要求1所述的方法,其特征在于,所述图形处理器集群当前的空闲算力资源包括每个所述图形处理器的空闲算力资源;所述图形处理器集群中包括至少一种运算性能级别的图形处理器;
所述根据所述数据集的大小、所述环境配置信息以及所述图形处理器集群当前的空闲算力资源,确定用于处理所述模型训练任务的至少一个目标图形处理器的步骤,包括:
根据所述环境配置信息携带的深度学习框架类型和所述图形处理器集群中每个图形处理器的运算性能级别,从所述图形处理器集群中确定备选图形处理器组;
根据所述数据集的大小以及每个所述图形处理器的空闲算力资源,从所述备选图形处理器组中确定一个目标图形处理器或至少两个目标图形处理器。
4.根据权利要求3所述的方法,其特征在于,所述根据所述数据集的大小以及每个所述图形处理器的空闲算力资源,从所述备选图形处理器组中确定一个目标图形处理器或至少两个目标图形处理器的步骤,包括:
根据所述数据集的大小,判断所述备选图形处理器组中的单个图形处理器的空闲算力资源是否足够处理所述模型训练任务;
若是,则将空闲算力资源足够处理所述模型训练任务的单个图形处理器确定为目标图形处理器;
若否,则根据所述备选图形处理器组中每个图形处理器的空闲算力资源,将所述模型训练任务分解成至少两个模型训练子任务;
根据处理每个所述模型训练子任务所需要的目标算力资源,将空闲算力资源大于或等于所述目标算力资源的至少两个图形处理器确定为目标图形处理器。
5.根据权利要求2所述的方法,其特征在于,所述采用所述执行环境以及所述目标图形处理器处理所述模型训练任务的步骤,包括:
根据所述模型训练任务携带的模型训练代码路径获取模型训练代码;
运行所述模型训练代码;
在所述目标操作系统环境,所述目标深度学习环境,所述目标编程语言环境下,所述目标图形处理器采用所述数据集训练模型,并输出训练结果。
6.根据权利要求1所述的方法,其特征在于,所述获取用户提交的模型训练任务的步骤,包括:
按照任务优先级从高到低的顺序从预设的任务队列中获取所述模型训练任务。
7.根据权利要求1所述的方法,其特征在于,获取用户提交的模型训练任务和所述图形处理器集群当前的空闲算力资源的步骤之前,还包括:
接收用户提交的所述模型训练任务并将所述模型训练任务存储到所述任务处理系统中预设的任务队列;
在所述任务队列中,按照提交的先后顺序,将至少一个用户提交的至少一个模型训练任务按照优先级从高到低的顺序排列;
针对同一个用户提交的至少一个模型训练任务,按照所述模型训练任务中携带的预设任务优先级,将所述模型训练任务按照所述预设任务优先级排列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211640768.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种BMC集群管理方法、系统及装置
- 下一篇:卫星装配用太阳翼定位校准装置