[发明专利]一种模型梯度更新方法及装置在审
申请号: | 202210107380.3 | 申请日: | 2022-01-28 |
公开(公告)号: | CN114492841A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 程栋;程新;周雍恺;高鹏飞;姜铁城 | 申请(专利权)人: | 中国银联股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F8/65 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 彭燕 |
地址: | 200135 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 梯度 更新 方法 装置 | ||
1.一种模型梯度更新方法,其特征在于,应用于中心服务器,包括:
中心服务器重复执行梯度更新过程,直至满足停止条件;其中,一次所述梯度更新过程包括:
接收多个节点分别发送的第一梯度,所述第一梯度为每个节点采用样本数据对节点中的待训练的模型进行一次或多次训练得到;基于多个第一梯度和本次梯度更新过程中的每个节点的概率得到第二梯度,所述本次梯度更新过程中的每个节点的概率为Actor-Critic网络基于上一次梯度更新过程中的每个节点的概率确定的;将所述第二梯度分别发送给所述多个节点,以使所述多个节点采用所述第二梯度对各自的待训练的模型的权重进行更新。
2.如权利要求1所述的方法,其特征在于,所述Actor-Critic网络包括Actor网络、至少一个Critic网络、及奖励函数;
所述奖励函数用于基于上一次梯度更新过程中确定的所述多个节点的概率,确定奖励值,并将奖励值传输至所述至少一个Critic网络;
所述至少一个Critic网络用于确定目标Q值,并将所述目标Q值传输至所述Actor网络;
所述Actor网络用于基于所述目标Q值确定本次梯度更新过程中的每个节点的概率。
3.如权利要求2所述的方法,其特征在于,所述目标Q值为多个Critic网络确定的Q值中的最小Q值。
4.如权利要求2所述的方法,其特征在于,奖励函数满足:
其中,A为第一准确率,B为第二准确率,g大于或等于1,其中,第一准确率为所述中心服务器与所述多个节点基于联邦平均学习算法得到的训练完成的模型的准确率;第二准确率为所述多个节点分别发送的第三准确率的平均值,所述第三准确为与所述第一梯度在所述节点采用样本数据对所述节点中的待训练的模型进行同一次模型训练中得到的。
5.如权利要求4所述的方法,其特征在于,当大于1时,g大于1;当小于或等于1时,g为1。
6.如权利要求2所述的方法,其特征在于,所述Actor-Critic网络包括3个Critic网络,针对任一Critic网络,在本次梯度更新过程中确定的Q值基于Q值梯度和上一次梯度更新过程中确定的Q值确定,所述Q值梯度基于第一参数确定,所述第一参数满足以下公式:
其中,
其中,J为所述第一参数;t为本次梯度更新的次数;k0,l>0,k+l=1;θ1,θ2,θ3分别表示3个Critic网络,θi为θ1,θ2,θ3分别表示3个Critic网络最新确定出的Q值中的最小值对应的网络;st为第t次梯度更新过程中的状态;at为第t次梯度更新过程中所述多个节点的概率;为第t次梯度更新过程中θi对应的Critic网络在st,at情况下确定的Q值;为第t次梯度更新过程中θ3对应的Critic网络在st,at情况下输出的Q值;r(st,at)为第t次梯度更新过程中在st,at情况下的奖励值;γ大于0;πt(at|st)为在st下做出at的概率;q为熵的指数,lnq为熵,αt不为0。
7.如权利要求6所述的方法,其特征在于,在本次梯度更新过程中采用的α基于α梯度和上一次梯度更新过程中采用的α确定,所述α梯度满足以下公式:
其中,J(α)为α梯度,αt-1为上一次梯度更新采用的α,H为理想的最小期望熵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司,未经中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210107380.3/1.html,转载请声明来源钻瓜专利网。