[发明专利]一种用于分布式深度学习训练的本地更新方法有效

专利信息
申请号: 202011312705.9 申请日: 2020-11-20
公开(公告)号: CN112381218B 公开(公告)日: 2022-04-12
发明(设计)人: 董德尊;徐叶茂;徐炜遐;廖湘科 申请(专利权)人: 中国人民解放军国防科技大学
主分类号: G06N3/063 分类号: G06N3/063;G06N20/00
代理公司: 北京丰浩知识产权代理事务所(普通合伙) 11781 代理人: 董超
地址: 410073 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 分布式 深度 学习 训练 本地 更新 方法
【权利要求书】:

1.一种用于分布式深度学习训练的本地更新方法,其特征在于,延迟步数为k,具体包括以下步骤:

S1,对从参数服务器端取回的t-1时刻全局权重wt-1进行备份并保存到备份权重变量pre_weight中,此时t-1时刻各个计算节点的本地权重w′t-1均等于t-1时刻全局权重wt-1,也等于备份权重pre_weight;

S2,在每个计算节点中计算全局梯度gradsync

w′t-1,i为t-1时刻第i个计算节点的本地权重,m和lr分别为参数服务器中设定的动量值和全局学习率;在进行k次本地更新操作后,将利用t时刻第i个计算节点的本地权重w′t,i对pre_weight的值进行覆盖;

S3,对本地权重进行更新得到新的本地权重,本地更新的计算公式为:

其中w′t,i为t时刻第i个计算节点的本地权重,loc_lr为本地学习率,α和β是用于决定本地梯度和全局梯度所占比例的系数,t-1时刻第i个计算节点权重w′t-1,i的值取决于计算节点是否执行了取回操作,取回操作是从参数服务器里将更新后的全局参数取回到计算节点中,如果执行了取回操作,则w′t-1,i等于t-1时刻的全局权重wt-1,如果未执行该操作,则w′t-1,i取值为进行了本地更新操作的本地权重;为t-1时刻第i个计算节点的全局梯度,为了方便描述,将简写为gradsync,grad′t-1,i为第i个计算节点t-1时刻的本地梯度,wd为权重下降系数;

本地权重更新完成后,开始下一轮的迭代训练;

S4,在接下来的k-1次迭代训练中,即执行下一次权重的取回操作前,每个计算节点都利用公式(1)和公式(2)进行本地更新操作,对于每个计算节点中各自独立的本地权重,在第k次迭代中,计算节点将执行该权重的取回操作,并用于下一次的本地更新操作;因此,下一次本地更新操作中的w′t-1,i均等于参数服务器中的全局权重wt-1,并且该次本地更新操作完成后,利用w′t,i对pre_weight值进行覆盖。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011312705.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top