[发明专利]参数更新方法、装置和电子设备在审
申请号: | 202210397566.7 | 申请日: | 2022-04-15 |
公开(公告)号: | CN114723069A | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 郑龙飞;王磊;王力 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京汇思诚业知识产权代理有限公司 11444 | 代理人: | 焦志刚 |
地址: | 310007 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 参数 更新 方法 装置 电子设备 | ||
1.一种参数更新方法,包括:
获取待训练的模型;
将所述待训练的模型分割为训练节点子模型和服务器子模型;
将所述训练节点子模型发送给参与训练的训练节点;
接收所述训练节点上传的输出层矩阵;其中,所述输出层矩阵是所述训练节点利用自身的训练数据对所述训练节点子模型进行前向传播之后获得的;
根据所述输出层矩阵更新所述服务器子模型的学习率;
根据所述输出层矩阵和所述服务器子模型的学习率,利用后向传播更新所述服务器子模型和所述训练节点子模型的参数。
2.根据权利要求1所述的方法,其中,所述根据所述输出层矩阵和所述服务器子模型的学习率,利用后向传播更新所述服务器子模型和所述训练节点子模型的参数之后,还包括:
在所述待训练的模型收敛之后,获得训练好的模型;
利用所述训练好的模型,对接收到的业务请求进行处理。
3.根据权利要求1所述的方法,其中,所述根据所述输出层矩阵更新所述服务器子模型的学习率包括:
根据所述输出层矩阵对服务器保存的输入层的累积矩阵进行更新,获得更新后的累积矩阵;其中,所述输入层的累积矩阵为所述服务器子模型的输入层的累积矩阵;
确定更新后的累积矩阵与所述输出层矩阵之间的差异性距离;
根据所述差异性距离,确定所述训练节点的分布差异系数;
根据所述分布差异系数,更新所述服务器子模型的学习率。
4.根据权利要求3所述的方法,其中,所述获得更新后的累积矩阵之后,还包括:
保存所述更新后的累积矩阵。
5.根据权利要求3所述的方法,其中,所述根据所述输出层矩阵对服务器保存的输入层的累积矩阵进行更新,获得更新后的累积矩阵包括:
将所述输出层矩阵与所述服务器保存的输入层的累积矩阵相加,获得更新后的累积矩阵。
6.根据权利要求3所述的方法,其中,所述输出层矩阵是所述训练节点利用自身的训练数据对所述训练节点子模型进行前向传播之后获得的,再对获得的输出层矩阵进行归一化之后上传服务器的;
所述确定更新后的累积矩阵与所述输出层矩阵之间的差异性距离包括:
对所述更新后的累积矩阵进行归一化;
确定归一化后的累积矩阵与归一化后的输出层矩阵之间的差异性距离。
7.根据权利要求1所述的方法,其中,所述根据所述输出层矩阵和所述服务器子模型的学习率,利用后向传播更新所述服务器子模型和所述训练节点子模型的参数包括:
利用所述输出层矩阵对所述服务器子模型进行训练,获得所述训练节点对应的标签预测值;
将所述训练节点对应的标签预测值发送给所述训练节点,以使所述训练节点根据所述标签预测值计算获得损失函数值;
接收所述训练节点发送的所述损失函数值;
根据所述损失函数值,获得所述待训练的模型的梯度;
根据所述梯度和所述服务器子模型的学习率,更新所述服务器子模型的参数;以及将所述梯度发送给所述训练节点,以使所述训练节点根据所述梯度和所述训练节点子模型的学习率,更新所述训练节点子模型的参数。
8.根据权利要求1-7任意一项所述的方法,其中,所述将所述待训练的模型分割为训练节点子模型和服务器子模型之后,还包括:
初始化所述训练节点子模型和所述服务器子模型的学习率;以及根据所述训练节点子模型输出层的维度,初始化所述服务器子模型的输入层的累积矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210397566.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:任务调度方法、装置和电子设备
- 下一篇:一种把手可360度旋转的足疗仪