[发明专利]一种基于联邦学习的模型训练方法、装置、设备及介质在审
申请号: | 202210433630.2 | 申请日: | 2022-04-24 |
公开(公告)号: | CN114817958A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 王小伟;张旭;吴睿振;孙华锦;王凛 | 申请(专利权)人: | 山东云海国创云计算装备产业创新中心有限公司 |
主分类号: | G06F21/60 | 分类号: | G06F21/60;G06F21/62;G06N20/00;H04L9/40 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 杨帆;张元 |
地址: | 250000 山东省济南市中国(山东)自由贸*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 联邦 学习 模型 训练 方法 装置 设备 介质 | ||
本发明涉及一种基于联邦学习的模型训练方法、装置、设备及介质。该方法包括:建立全局参数模型并将全局参数模型发送给参与模型训练的各个客户端将参与模型训练的客户端划分成多个组;在客户端进行训练并将训练时使用的数据个数发送给服务器;基于数据个数计算每个客户端的加权系数并发送给客户端;使用预设加密算法对乘以加权系数后的梯度数据进行加密;基于预设算法整合同一组内各个客户端的加密数据以生成整合结果后发送给服务器;对各个组的整合结果使用预设解密算法进行解密后再求和以得到梯度加权平均值用以更新权重参数并发送给各客户端再次进行训练直至全局参数模型收敛。本发明的方案使服务器不能获取到用户模型参数保证数据安全。
技术领域
本发明涉及数据安全保护领域,尤其涉及一种基于联邦学习的模型训练方法、装置、设备及介质。
背景技术
随着智能终端设备的快速普及,大量的个人信息数据被各种网络平台所采集。而在现实生活中,个人信息的泄露已屡见不鲜。在近年来,不仅个人对隐私数据的保密愈发关注,政府部门也相继出台了许多网络个人隐私保护和网络安全建设方面的法律法规。传统的机器学习需要先把信息都收集到中心服务器,然后再进行模型训练,客户端的隐私数据很容易遭到泄露。联邦学习作为一种分布式的机器学习模式,它不需要让数据离开本地客户端,进而对数据隐私起到一定的保护作用。在实际操作过程中,它首先由云服务器建立全局模型,并将其发送至每个客户端。然后在客户端进行模型训练,训练完成之后,客户端把本地模型参数上传到云服务器。接着由云服务器对上传的模型参数进行聚合,并计算得到新的全局模型。最后重复以上过程,直到损失函数收敛或者迭代次数达到要求。
Phong Le Trieu等人指出,共享本地梯度或者模型数据会导致隐私的泄露。为了保护数据的隐私信息,有一些学者采用了差分隐私的方法,通过对模型参数添加噪声的方式,使攻击者不能获取隐私数据信息。但是Qiang Yang等人提到恶意的服务器依然能够获取客户端的本地梯度或者模型数据,从而得到客户端的隐私信息。
Muhammad Asad等人基于非交互零知识证明的同态加密系统对联邦学习的保密性进行增强。他们的基本思路是在本地客户端对模型参数进行加密处理,然后发送到服务端,由服务端对加密后的模型参数进行聚合,接着再对聚合后的数据解密,最后再计算得到新的全局模型。事实上,在此方案中,由于云服务器具有解密功能,如果是恶意的服务器,加密后的客户端模型参数直接发送给云服务器的方式依然存在风险,服务端是能够对客户端模型参数解密的,这会导致隐私泄露。Abbass Madi等人采取的方法是所有客户端持有公钥和私钥,服务端只持有公钥,每次随机选择一部分客户端参与训练,本地客户端将加密后的数据发送给服务端后,服务端对加密后的模型参数进行聚合,聚合后的全局私密参数直接发送到客户端,由客户端对加密的全局私密参数进行解密。在此方案中,如果客户端分布比较广泛,密钥暴露的风险比较大,一旦密钥暴露,恶意的云服务器依然能够获取用户的个人隐私。另外Muhammad Asad等人使用的同态加密算法实际上是Paillier加密算法,原始的Paillier算法只能够对正整数进行加密,他们通过给参数乘以2ε将小数转化为整数,实际上他们没有描述对负数的处理,而梯度数据中会存在负数,对于此种情形并不能对负数起到保护的作用。另外Wang Rongbing等人也进行了将Paillier算法推广到实数范围内,他们采用的方法为:在加密前乘以10k,把数据转化成整数,在解密后再除以10k还原原本的实数,事实上在此论文中同样没有描述对负数的处理。
发明内容
有鉴于此,有必要针对以上技术问题,提供一种基于联邦学习的模型训练方法、装置、设备及介质。
根据本发明的第一方面,提供了一种基于联邦学习的模型训练方法,所述方法包括:
由服务器建立全局参数模型并将所述全局参数模型发送给参与模型训练的各个客户端;
由服务器将参与模型训练的客户端划分成多个组,其中每个组均包括多个客户端;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东云海国创云计算装备产业创新中心有限公司,未经山东云海国创云计算装备产业创新中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210433630.2/2.html,转载请声明来源钻瓜专利网。