[发明专利]一种模型训练任务处理方法、装置、电子设备及可读介质在审
申请号: | 202211640768.6 | 申请日: | 2022-12-20 |
公开(公告)号: | CN116069500A | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 王维;徐玉清;曾康;范利成 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06V10/774 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 任亚娟 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 任务 处理 方法 装置 电子设备 可读 介质 | ||
本发明实施例提供了一种模型训练任务处理方法、装置、电子设备及可读介质,任务处理系统获取用户提交的模型训练任务和图形处理器集群当前的空闲算力资源,任务处理系统根据环境配置信息部署模型训练任务的执行环境,并根据数据集的大小、环境配置信息以及图形处理器集群当前的空闲算力资源,确定用于处理模型训练任务的至少一个目标图形处理器,从而可以采用执行环境以及目标图形处理器处理模型训练任务。采用本发明所述方法,用户不需要花费时间和精力构建模型训练任务所需的执行环境,从而可以专注于模型训练,提高模型训练的效率。并且为模型训练任务精准匹配合适的算力资源,不会因为使用过多的算力资源进行模型训练而造成算力资源的浪费。
技术领域
本发明涉及计算机技术领域,特别是涉及一种模型训练任务处理方法、一种模型训练任务处理装置、一种电子设备以及一种计算机可读介质。
背景技术
现有技术中,当用户进行模型训练,有处理大批量数据集及大批量并行计算的需求时,需要用户自己构建运行环境,以及用户得自己考虑需要多少算力资源用于模型训练,这样会令用户花费过多时间和精力在模型训练以外的事情,不能专注于模型训练,使得模型的训练效率较低。并且当用户不清楚模型训练使用多少算力资源比较合适时,使用过多的算力资源进行模型训练会造成算力资源的浪费。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种模型训练任务处理方法、一种模型训练任务处理装置、一种电子设备以及一种计算机可读介质。
本发明实施例公开了一种模型训练任务处理方法,应用于任务处理系统,所述任务处理系统与至少一个图形处理器集群通信连接,所述图形处理器集群中包含至少一个图形处理器,包括:
获取用户提交的模型训练任务和所述图形处理器集群当前的空闲算力资源;所述模型训练任务包含环境配置信息以及数据集;
根据所述环境配置信息部署所述模型训练任务的执行环境;
根据所述数据集的大小、所述环境配置信息以及所述图形处理器集群当前的空闲算力资源,确定用于处理所述模型训练任务的至少一个目标图形处理器;
采用所述执行环境以及所述目标图形处理器处理所述模型训练任务。
优选地,所述环境配置信息包括操作系统类型,深度学习框架类型,编程语言类型;所述任务处理系统中存储有至少一种类型的操作系统环境,至少一种类型的深度学习框架环境,至少一种类型的编程语言环境;
所述根据所述环境配置信息部署所述模型训练任务的执行环境的步骤,包括:
调用所述操作系统类型对应的目标操作系统环境,所述深度学习框架类型对应的目标深度学习环境,所述目标编程语言类型对应的目标编程语言环境部署所述模型训练任务的执行环境。
优选地,所述图形处理器集群当前的空闲算力资源包括每个所述图形处理器的空闲算力资源;所述图形处理器集群中包括至少一种运算性能级别的图形处理器;
所述根据所述数据集的大小、所述环境配置信息以及所述图形处理器集群当前的空闲算力资源,确定用于处理所述模型训练任务的至少一个目标图形处理器的步骤,包括:
根据所述环境配置信息携带的深度学习框架类型和所述图形处理器集群中每个图形处理器的运算性能级别,从所述图形处理器集群中确定备选图形处理器组;
根据所述数据集的大小以及每个所述图形处理器的空闲算力资源,从所述备选图形处理器组中确定一个目标图形处理器或至少两个目标图形处理器。
优选地,所述根据所述数据集的大小以及每个所述图形处理器的空闲算力资源,从所述备选图形处理器组中确定一个目标图形处理器或至少两个目标图形处理器的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211640768.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种BMC集群管理方法、系统及装置
- 下一篇:卫星装配用太阳翼定位校准装置