[发明专利]基于联邦学习的模型训练方法及装置、设备、存储介质有效
申请号: | 202210489888.4 | 申请日: | 2022-05-07 |
公开(公告)号: | CN114595835B | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 陈瑞钦;蒋杰;刘煜宏;陈鹏;陶阳宇;程勇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/04;G06N3/08 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 徐明霞 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 联邦 学习 模型 训练 方法 装置 设备 存储 介质 | ||
1.一种基于联邦学习的模型训练方法,其特征在于,待训练的联邦神经网络模型包括第一参与方对应的第一底层网络,以及第二参与方对应的第二底层网络、交互层网络和顶层网络,所述第二参与方拥有训练样本对应的标签信息;所述方法包括:
将所述训练样本输入至所述联邦神经网络模型中,以通过所述训练样本在所述联邦神经网络模型所包括的各层网络中进行前向计算,得到顶层网络输出数据;
根据所述顶层网络输出数据和所述标签信息计算训练损失值,并基于所述训练损失值对所述联邦神经网络模型进行反向传播处理,以更新所述联邦神经网络模型所包括的各层网络中的网络参数;
其中,在更新所述第一底层网络的网络参数的过程中,所述第二参与方计算所述训练损失值相对于所述第一底层网络的前向输出信息的第一梯度信息,并将所述第一梯度信息加密后发送至所述第一参与方;
所述第一参与方根据接收到的加密梯度信息,计算所述第一底层网络对应的网络参数梯度的密文数据,并将所述密文数据返回至所述第二参与方;
所述第二参与方对所述密文数据进行解密,并将解密得到的明文数据发送至所述第一参与方,以使所述第一参与方基于所述明文数据更新所述第一底层网络的网络参数。
2.根据权利要求1所述的方法,其特征在于,所述第一参与方根据接收到的加密梯度信息,计算所述第一底层网络对应的网络参数梯度的密文数据,包括:
所述第一参与方根据所述第一底层网络的前向输出信息计算雅可比矩阵,并计算所述雅可比矩阵与所述加密梯度信息之积,得到所述第一底层网络对应的网络参数梯度的初始密文;
生成第一噪声数据,并将所述第一噪声数据与所述初始密文进行叠加,以得到所述第一底层网络对应的网络参数梯度的密文数据,其中,所述第一参与方在接收到所述密文数据所对应的明文数据后,还对所述明文数据进行噪声消除,以基于噪声消除后的明文数据更新所述第一底层网络的网络参数。
3.根据权利要求2所述的方法,其特征在于,在生成第一噪声数据之前,所述方法还包括:
计算所述初始密文在批量的训练样本上的加和结果,以将所述加和结果替换所述初始密文与所述第一噪声数据进行叠加,得到所述密文数据,其中,所述第一参与方在接收到所述密文数据所对应的明文数据后,对所述明文数据进行噪声消除,并基于噪声消除后的明文数据计算平均梯度信息,以基于所述平均梯度信息更新所述第一底层网络的网络参数。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在更新所述第一底层网络的网络参数的过程中,根据所述第二参与方对应的反向传播计算量和所述第一参与方对应的反向传播计算量,自适应调整所述交互层网络中分别对应于所述第二参与方和所述第一参与方的网络切分比例。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在进行所述联邦神经网络模型的训练过程中,所述第二参与方部署的主节点或者所述第一参与方部署的从节点通过调用预设的异构计算服务,以扩增所述第二参与方或者所述第一参与方的计算性能。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在更新所述第二底层网络的网络参数的过程中,所述第二参与方根据所述训练损失值和第二底层网络的前向输出信息计算所述第二底层网络对应的网络参数梯度;
根据所述第二底层网络对应的网络参数梯度进行所述第二底层网络的网络参数的更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210489888.4/1.html,转载请声明来源钻瓜专利网。