[发明专利]一种用于分布式深度学习训练的本地更新方法有效

申请号：	202011312705.9	申请日：	2020-11-20
公开（公告）号：	CN112381218B	公开（公告）日：	2022-04-12
发明（设计）人：	董德尊;徐叶茂;徐炜遐;廖湘科	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06N3/063	分类号：	G06N3/063;G06N20/00
代理公司：	北京丰浩知识产权代理事务所(普通合伙) 11781	代理人：	董超
地址：	410073 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于分布式深度学习训练本地更新方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于分布式深度学习训练的本地更新方法，其特征在于，延迟步数为k，具体包括以下步骤：

S1，对从参数服务器端取回的t-1时刻全局权重w_t-1进行备份并保存到备份权重变量pre_weight中，此时t-1时刻各个计算节点的本地权重w′_t-1均等于t-1时刻全局权重w_t-1，也等于备份权重pre_weight；

S2，在每个计算节点中计算全局梯度grad_sync：

w′_t-1,i为t-1时刻第i个计算节点的本地权重，m和lr分别为参数服务器中设定的动量值和全局学习率；在进行k次本地更新操作后，将利用t时刻第i个计算节点的本地权重w′_t,i对pre_weight的值进行覆盖；

S3，对本地权重进行更新得到新的本地权重，本地更新的计算公式为：

其中w′_t,i为t时刻第i个计算节点的本地权重，loc_lr为本地学习率，α和β是用于决定本地梯度和全局梯度所占比例的系数，t-1时刻第i个计算节点权重w′_t-1,i的值取决于计算节点是否执行了取回操作，取回操作是从参数服务器里将更新后的全局参数取回到计算节点中，如果执行了取回操作，则w′_t-1,i等于t-1时刻的全局权重w_t-1，如果未执行该操作，则w′_t-1,i取值为进行了本地更新操作的本地权重；为t-1时刻第i个计算节点的全局梯度，为了方便描述，将简写为grad_sync，grad′_t-1,i为第i个计算节点t-1时刻的本地梯度，wd为权重下降系数；

本地权重更新完成后，开始下一轮的迭代训练；

S4，在接下来的k-1次迭代训练中，即执行下一次权重的取回操作前，每个计算节点都利用公式(1)和公式(2)进行本地更新操作，对于每个计算节点中各自独立的本地权重，在第k次迭代中，计算节点将执行该权重的取回操作，并用于下一次的本地更新操作；因此，下一次本地更新操作中的w′_t-1,i均等于参数服务器中的全局权重w_t-1，并且该次本地更新操作完成后，利用w′_t,i对pre_weight值进行覆盖。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学，未经中国人民解放军国防科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011312705.9/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于分布式深度学习训练的本地更新方法有效

专利文献下载