[发明专利]一种梯度数据的同步方法、系统、设备及存储介质有效
申请号: | 202211592818.8 | 申请日: | 2022-12-13 |
公开(公告)号: | CN115665174B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 曹芳;郭振华;王丽;高开;赵雅倩;李仁刚 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | H04L67/1095 | 分类号: | H04L67/1095;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 崔俊红 |
地址: | 250000 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 梯度 数据 同步 方法 系统 设备 存储 介质 | ||
1.一种梯度数据的同步方法,其特征在于,应用于分布式深度学习系统的各个节点中,包括:
获取1个批次的训练样本并进行本地深度学习模型的训练,得到本地的参数梯度;
当自身在未组队状态下接收到任意1个邻居节点的组队请求时,将自身设置为组队状态;
按照预设规则从邻居节点集合中选取出1个邻居节点,判断选取出的所述邻居节点当前是否处于组队状态;
如果否,则将自身设置为组队状态,并向所述邻居节点发起组队请求以使所述邻居节点将所述邻居节点自身设置为组队状态;
如果是,则返回执行所述按照预设规则从邻居节点集合中选取出1个邻居节点的操作;
在将自身设置为组队状态之后,基于本地的参数梯度以及与自身组队的所述邻居节点的参数梯度,进行梯度数据的同步;
在进行梯度数据的同步之后将自身恢复为未组队状态,并返回执行所述获取1个批次的训练样本并进行本地深度学习模型的训练的操作,直至模型训练结束;
其中,对于任意1个节点,在得到本地的参数梯度之后,均会执行所述按照预设规则从邻居节点集合中选取出1个邻居节点的操作,同时,对于任意1个节点而言,该节点得到本地的参数梯度之后,如果自身在未组队状态下接收到任意1个邻居节点的组队请求时,则直接将自身设置为组队状态,使得自身与发起组队请求的该邻居节点组队成功。
2.根据权利要求1所述的梯度数据的同步方法,其特征在于,所述按照预设规则从邻居节点集合中选取出1个邻居节点,判断选取出的所述邻居节点当前是否处于组队状态,包括:
使用随机数生成器生成K个互不相同的随机数;其中,K表示的是本节点的邻居节点总数量;
设定K个随机数各自对应的邻居节点,且任意两个随机数对应的邻居节点互不相同;
按照从第1个随机数至第K个随机数的循环选取规则,进行随机数的选定,且每次选定1个随机数之后,将选定的随机数对应的邻居节点作为本次选取出的1个邻居节点,判断选取出的所述邻居节点当前是否处于组队状态。
3.根据权利要求2所述的梯度数据的同步方法,其特征在于,所述设定K个随机数各自对应的邻居节点,包括:
针对任意1个随机数,将编号与该随机数的数值相同的邻居节点,作为设定的对应于该随机数的邻居节点;
其中,K个随机数的取值均为正整数,且最小值为1,最大值为K,K个邻居节点的编号为1至K。
4.根据权利要求1所述的梯度数据的同步方法,其特征在于,所述按照预设规则从邻居节点集合中选取出1个邻居节点,判断选取出的所述邻居节点当前是否处于组队状态,包括:
从邻居节点集合中随机选取出1个邻居节点,判断选取出的所述邻居节点当前是否处于组队状态。
5.根据权利要求1所述的梯度数据的同步方法,其特征在于,所述基于本地的参数梯度以及与自身组队的所述邻居节点的参数梯度,进行梯度数据的同步,包括:
基于本地的参数梯度以及与自身组队的所述邻居节点的参数梯度,通过梯度平均的方式进行梯度数据的同步。
6.根据权利要求1所述的梯度数据的同步方法,其特征在于,所述将自身设置为组队状态,包括:
通过修改自身的组队标志位,并将队友节点编号设置为与自身组队的邻居节点的ID,以将自身设置为组队状态。
7.根据权利要求6所述的梯度数据的同步方法,其特征在于,所述判断选取出的所述邻居节点当前是否处于组队状态,包括:
通过选取出的所述邻居节点的组队标志位,判断选取出的所述邻居节点当前是否处于组队状态。
8.根据权利要求1所述的梯度数据的同步方法,其特征在于,所述模型训练结束的触发条件为:
本地深度学习模型收敛,和/或进行本地深度学习模型的训练次数达到了设定的次数阈值。
9.根据权利要求1所述的梯度数据的同步方法,其特征在于,还包括:
当失去与任意1个邻居节点的通信连接时,输出故障提示信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211592818.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置