[发明专利]深度学习模型的分布式训练方法、装置、设备及存储介质在审
申请号: | 201911161212.7 | 申请日: | 2019-11-24 |
公开(公告)号: | CN110969198A | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 王振 | 申请(专利权)人: | 广东浪潮大数据研究有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;H04L12/26 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 侯珊 |
地址: | 510620 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 深度 学习 模型 分布式 训练 方法 装置 设备 存储 介质 | ||
1.一种深度学习模型的分布式训练方法,其特征在于,包括:
获取集群内各个节点间的网络通信速度数据集;
利用聚类算法及所述网络通信速度数据集,对所述集群的所有节点进行网络分组;其中,每个网络分组内的节点为网络通信速度相近的节点;
若接收到深度学习模型的分布式训练任务,则将所述分布式训练任务调度至网络通信速度最快的网络分组的节点进行训练。
2.根据权利要求1所述的分布式训练方法,其特征在于,所述获取集群内各个节点间的网络通信速度数据集,包括:
通过Kubernetes系统在预定周期内,收集不同训练任务中集群内各个节点之间的网络通信速度数据,生成网络通信速度数据集;
获取所述网络通信速度数据集。
3.根据权利要求2所述的分布式训练方法,其特征在于,所述利用聚类算法及所述网络通信速度数据集,对所述集群的所有节点进行网络分组,包括:
将所述网络通信速度数据集转换为空间距离数据集;
通过K均值聚类算法对所述空间距离数据集进行聚合训练,得到所述集群的不同网络分组。
4.根据权利要求1至3任意一项所述的分布式训练方法,其特征在于,还包括:
若检测到集群的网络结构发生变化,则重新执行所述获取集群内各个节点间的网络通信速度数据集,利用聚类算法及网络通信速度数据集,对所述集群的所有节点进行网络分组的步骤。
5.一种深度学习模型的分布式训练装置,其特征在于,包括:
获取模块,用于获取集群内各个节点间的网络通信速度数据集;
分组模块,用于利用聚类算法及所述网络通信速度数据集,对所述集群的所有节点进行网络分组;其中,每个网络分组内的节点为网络通信速度相近的节点;
调度模块,用于接收到深度学习模型的分布式训练任务时,将所述分布式训练任务调度至网络通信速度最快的网络分组的节点进行训练。
6.根据权利要求5所述的分布式训练装置,其特征在于,所述获取模块包括:
数据收集单元,用于通过Kubernetes系统在预定周期内,收集不同训练任务中集群内各个节点之间的网络通信速度数据,生成网络通信速度数据集;
数据获取单元,用于获取所述网络通信速度数据集。
7.根据权利要求6所述的分布式训练装置,其特征在于,所述分组模块包括:
转换单元,用于将所述网络通信速度数据集转换为空间距离数据集;
训练单元,用于通过K均值聚类算法对所述空间距离数据集进行聚合训练,得到所述集群的不同网络分组。
8.根据权利要求5至7任意一项所述的分布式训练装置,其特征在于,还包括:
网络结构检测模块,用于在检测到集群的网络结构发生变化,重新触发所述获取模块获取集群内各个节点间的网络通信速度数据集,以及触发所述分组模块利用聚类算法及网络通信速度数据集对所述集群的所有节点进行网络分组。
9.一种深度学习模型的分布式训练设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述的深度学习模型的分布式训练方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的深度学习模型的分布式训练方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东浪潮大数据研究有限公司,未经广东浪潮大数据研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911161212.7/1.html,转载请声明来源钻瓜专利网。