[发明专利]一种联合训练机器学习模型的方法、系统及装置有效
申请号: | 202110086857.X | 申请日: | 2021-01-22 |
公开(公告)号: | CN112766514B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 陈超超;王力 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06N20/20 | 分类号: | G06N20/20 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 袁春晓 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联合 训练 机器 学习 模型 方法 系统 装置 | ||
1.一种保护数据隐私安全的联合训练机器学习模型的方法,所述方法由参与方中的任一训练成员实现,其中,所述参与方包括多个训练成员以及服务器,所述方法包括对模型参数进行多轮迭代更新,其中一轮迭代更新包括:
从公共数据集获取一个或多个公共训练样本;所述公共数据集在各训练成员之间公开;
通过本地待训练模型处理所述一个或多个公共训练样本,获得包含一个或多个预测结果的第一预测集;
将所述第一预测集发送给所述服务器;
从所述服务器获取聚合预测集,所述聚合预测集由所述服务器基于来自多个训练成员的第一预测集确定;
基于所述聚合预测集与所述一个或多个公共训练样本的标签值计算第一损失函数,并基于所述第一损失函数更新所述本地待训练模型的模型参数,获得一次更新的本地待训练模型;
通过所述一次更新的本地待训练模型处理来自该训练成员的私有数据集的一个或多个私有训练样本,获得包含一个或多个预测结果的第二预测集;
基于所述第二预测集与所述一个或多个私有训练样本的标签值计算第二损失函数,并基于所述第二损失函数更新所述一次更新的本地待训练模型的模型参数,获得二次更新的本地待训练模型;
将所述二次更新的本地待训练模型作为下一轮迭代更新中的本地待训练模型,或者基于所述二次更新的本地待训练模型确定最终模型。
2.如权利要求1所述的方法,其中,所述公共数据集由所述多个训练成员联合确定。
3.如权利要求1所述的方法,其中,所述本地待训练模型的结构不同于其他训练成员的本地待训练模型。
4.如权利要求1所述的方法,其中,通过加密的方式将所述第一预测集发送给所述服务器;所述加密的方式包括同态加密或秘密分享。
5.如权利要求1所述的方法,其中,所述聚合预测集为各训练成员的第一预测集的均值。
6.一种保护数据隐私安全的联合训练机器学习模型的系统,所述系统布置在参与方中的任一训练成员处,其中,所述参与方包括多个训练成员以及服务器,所述系统用于对模型参数进行多轮迭代更新;所述系统包括:
第一获取模块,用于从公共数据集获取一个或多个公共训练样本,所述公共数据集在各训练成员之间公开;
第一处理模块,用于通过本地待训练模型处理所述一个或多个公共训练样本,获得包含一个或多个预测结果的第一预测集;
第一发送模块,用于将所述第一预测集发送给所述服务器;
第二获取模块,用于从所述服务器获取聚合预测集,所述聚合预测集由所述服务器基于来自多个训练成员的第一预测集确定;
一次更新模块,用于基于所述聚合预测集与所述一个或多个公共训练样本的标签值计算第一损失函数,并基于所述第一损失函数更新所述本地待训练模型的模型参数,获得一次更新的本地待训练模型;
第二处理模块,用于通过所述一次更新的本地待训练模型处理来自该训练成员的私有数据集的一个或多个私有训练样本,获得包含一个或多个预测结果的第二预测集;
二次更新模块,用于基于所述第二预测集与所述一个或多个私有训练样本的标签值计算第二损失函数,并基于所述第二损失函数更新所述一次更新的本地待训练模型的模型参数,获得二次更新的本地待训练模型;
确定模块,用于将所述二次更新的本地待训练模型作为下一轮迭代更新中的本地待训练模型,或者基于所述二次更新的本地待训练模型确定最终模型。
7.一种保护数据隐私安全的联合训练机器学习模型的装置,所述装置包括处理器以及存储器,所述存储器用于存储指令,所述处理器用于执行所述指令,以实现如权利要求1至5中任一项所述联合训练机器学习模型的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110086857.X/1.html,转载请声明来源钻瓜专利网。