[发明专利]一种用于分布式深度学习训练的本地更新方法有效
申请号: | 202011312705.9 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112381218B | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 董德尊;徐叶茂;徐炜遐;廖湘科 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06N3/063 | 分类号: | G06N3/063;G06N20/00 |
代理公司: | 北京丰浩知识产权代理事务所(普通合伙) 11781 | 代理人: | 董超 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 分布式 深度 学习 训练 本地 更新 方法 | ||
1.一种用于分布式深度学习训练的本地更新方法,其特征在于,延迟步数为k,具体包括以下步骤:
S1,对从参数服务器端取回的t-1时刻全局权重wt-1进行备份并保存到备份权重变量pre_weight中,此时t-1时刻各个计算节点的本地权重w′t-1均等于t-1时刻全局权重wt-1,也等于备份权重pre_weight;
S2,在每个计算节点中计算全局梯度gradsync:
w′t-1,i为t-1时刻第i个计算节点的本地权重,m和lr分别为参数服务器中设定的动量值和全局学习率;在进行k次本地更新操作后,将利用t时刻第i个计算节点的本地权重w′t,i对pre_weight的值进行覆盖;
S3,对本地权重进行更新得到新的本地权重,本地更新的计算公式为:
其中w′t,i为t时刻第i个计算节点的本地权重,loc_lr为本地学习率,α和β是用于决定本地梯度和全局梯度所占比例的系数,t-1时刻第i个计算节点权重w′t-1,i的值取决于计算节点是否执行了取回操作,取回操作是从参数服务器里将更新后的全局参数取回到计算节点中,如果执行了取回操作,则w′t-1,i等于t-1时刻的全局权重wt-1,如果未执行该操作,则w′t-1,i取值为进行了本地更新操作的本地权重;为t-1时刻第i个计算节点的全局梯度,为了方便描述,将简写为gradsync,grad′t-1,i为第i个计算节点t-1时刻的本地梯度,wd为权重下降系数;
本地权重更新完成后,开始下一轮的迭代训练;
S4,在接下来的k-1次迭代训练中,即执行下一次权重的取回操作前,每个计算节点都利用公式(1)和公式(2)进行本地更新操作,对于每个计算节点中各自独立的本地权重,在第k次迭代中,计算节点将执行该权重的取回操作,并用于下一次的本地更新操作;因此,下一次本地更新操作中的w′t-1,i均等于参数服务器中的全局权重wt-1,并且该次本地更新操作完成后,利用w′t,i对pre_weight值进行覆盖。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011312705.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抽拉操控机构及抽拉装置
- 下一篇:一种发光范围可调节的LED灯