[发明专利]一种训练方法、装置及电子设备和存储介质在审
申请号: | 201911243167.X | 申请日: | 2019-12-06 |
公开(公告)号: | CN111124634A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 袁利杰 | 申请(专利权)人: | 广东浪潮大数据研究有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 史翠 |
地址: | 510620 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 训练 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种训练方法、装置及一种电子设备和计算机可读存储介质,该方法包括:当接收到目标训练作业时,提取目标训练作业的作业信息作为目标作业信息;基于目标对应关系确定目标作业信息对应的目标节点信息;其中,目标对应关系为作业信息与节点信息对应关系;根据目标节点信息确定目标运行节点,并将目标训练作业调度至目标运行节点进行训练。本申请提供的训练方法,当接收到目标训练作业时提取目标训练作业的作业信息,利用预设得到的目标对应关系确定该作业信息对应的节点信息,基于该节点信息确定该目标训练作业对应的最佳运行节点,将目标训练作业调度到最佳运行节点上,最大程度的发挥节点软硬件资源的性能,提高训练作业的运行效率。
技术领域
本申请涉及计算机技术领域,更具体地说,涉及一种训练方法、装置及一种电子设备和一种计算机可读存储介质。
背景技术
随着人工智能(AI)技术的进一步发展和应用,AI算法工程师主要在GPU(中文全称:图形处理器,英文全称:Graphics Processing Unit)集群上不断迭代训练算法模型,以得到精度高、鲁棒性强的AI模型。通常情况下,每个GPU集群GPU节点的系统、CPU类型、GPU卡的类型、安装的GPU卡驱动版本及其相关软件是有些差异的。然而,GPU节点的这些参数往往会影响一个AI模型算法的训练迭代速度,进而影响算法人员的工作效率。
因此,如何为不同的训练作业选择一个合适的运行节点,高效地发挥出集群的性能,是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种训练方法、装置及一种电子设备和一种计算机可读存储介质,为不同的训练作业选择一个合适的运行节点,高效地发挥出集群的性能。
为实现上述目的,本申请提供了一种训练方法,包括:
当接收到目标训练作业时,提取所述目标训练作业的作业信息作为目标作业信息;
基于目标对应关系确定所述目标作业信息对应的目标节点信息;其中,所述目标对应关系为作业信息与节点信息对应关系;
根据所述目标节点信息确定目标运行节点,并将所述目标训练作业调度至所述目标运行节点进行训练。
其中,还包括:
获取测试训练作业,提取每个所述测试训练作业的作业信息,在每个节点中运行每个所述测试训练作业;
计算每个所述测试训练作业在每个所述节点上运行的运行时间,基于所述运行时间利用深度学习算法确定每个所述测试训练作业对应的最佳运行节点;
将每个所述测试训练作业的作业信息与所述最佳运行节点的节点信息的对应关系确定为所述目标对应关系。
其中,所述深度学习算法包括自动编码算法或深度信念网络算法。
其中,所述作业信息包括深度学习框架、算法框架、数据集、镜像信息、业务类型中任一项或任几项的组合,所述节点信息包括GPU卡类型、驱动版本、CUDA版本中任一项或任几项的组合。
为实现上述目的,本申请提供了一种训练装置,包括:
提取模块,用于当接收到目标训练作业时,提取所述目标训练作业的作业信息作为目标作业信息;
第一确定模块,用于基于目标对应关系确定所述目标作业信息对应的目标节点信息;其中,所述目标对应关系为作业信息与节点信息对应关系;
调度模块,用于根据所述目标节点信息确定目标运行节点,并将所述目标训练作业调度至所述目标运行节点进行训练。
其中,还包括:
获取模块,用于获取测试训练作业,提取每个所述测试训练作业的作业信息,在每个节点中运行每个所述测试训练作业;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东浪潮大数据研究有限公司,未经广东浪潮大数据研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911243167.X/2.html,转载请声明来源钻瓜专利网。