[发明专利]一种基于贡献量的联邦学习客户机选择方法、系统及介质有效
申请号: | 202110717168.4 | 申请日: | 2021-06-28 |
公开(公告)号: | CN113378474B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 林伟伟;许银海 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F111/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 贡献 联邦 学习 客户机 选择 方法 系统 介质 | ||
本发明公开了一种基于贡献量的联邦学习客户机选择方法、系统及介质。该方法包括:初始化选择权重;计算客户机选择概率;选择客户机集合进行本地训练;计算客户机贡献量;无偏估计并更新选择权重;迭代训练。本发明定义客户机对全局模型准确率的提高量作为客户机的贡献量,基于贡献量更新客户机的选择权重,为性能优异的客户机和本地数据集优质的客户机分配高选择概率,降低性能差和数据集恶劣的客户机选择概率,提高最终聚合模型收敛速度和效果。另外,本发明可通过调节客户机贡献量的无偏估计的调节系数θ,满足不同场景需求,如追求全局模型准确率、模型收敛速度或者两者的有效平衡,具有很强的适应性。
技术领域
本发明属于联邦学习中客户机选择的技术领域,具体涉及一种基于贡献量的联邦学习客户机选择方法、系统及介质。
背景技术
随着人工智能的发展,大数据驱动的智能设备广泛应用于生活中的各个领域。然而,大多数领域的数据有限,并且传统机器学习方法将数据集中至中心化服务器极大的侵害了个人或集体的隐私,这是在许多行业如金融、政府中绝对不允许的。联邦学习出现解决数据不足以及数据孤岛等问题。联邦学习允许多个用户(称为客户机)根据本地设备的数据训练模型然后汇总至中央服务器更新全局模型,本地数据不需要上传至中心服务器,极大的保护了用户的个人隐私。
出于带宽通信压力的考虑,联邦学习中每一轮训练都只选择一部分客户机进行训练,随机选择算法是最早并且最常用的客户机选择算法。考虑到存在客户机无法在截止时间前完成本地训练的情况,T.Nishio出了FedCS算法,即在截止日期之前尽可能的选择最快完成训练的客户机。此算法与贪婪算法类似。然而,与分布式计算方式不同,由于联邦学习中数据天然存在于不同领域、机构的数据孤岛中,所以联邦学习中各个客户机的数据量差异大、数据分布不均。随机选择算法以及FedCS选择算法并没有考虑到客户机的本地数据质量,无法有效减少数据质量差的客户机的选择次数,从而导致全局模型效果不佳、收敛速度过慢等问题。因此,对客户机的有效选择,在保证全局模型效果的同时提高模型收敛速度成为了新的挑战。
发明内容
本发明的主要目的在于解决客户机性能差异大、客户机本地数据分布恶劣场景下联邦学习客户机的选择问题,提供一种基于贡献量的联邦学习客户机选择方法、系统及介质。本发明定义客户机对全局模型准确率的提高量作为客户机的贡献量,基于贡献量更新客户机的选择权重,为性能优异的客户机和本地数据集优质的客户机分配高选择概率,降低性能差和数据集恶劣的客户机选择概率,提高最终聚合模型收敛速度和效果。
为了达到上述目的,本发明采用以下技术方案:
本发明的一个方面,提供了一种基于贡献量的联邦学习客户机选择方法,包括以下步骤:
初始化选择权重ωi,1=1/K,其中K为所有待选择的智能终端客户机的个数;
在每一轮训练开始前,根据选择权重计算所有客户机的选择概率pi,t,其中t∈Γ,Γ={1,2,…,T}表示训练轮数的集合,最多训练T轮;
基于客户机的选择概率pi,t选择k个客户机集合At;
分发全局模型至At内被选择的客户机,被选择的客户机基于本地数据训练模型;
依次接收被选择的客户机训练得到的本地模型,并计算每个客户机的贡献量ai,t;
对本轮贡献量ai,t进行无偏估计,预测每个客户机下一轮的贡献量基于客户机下一轮的贡献量更新该客户机i的选择权重为ωi,t+1;
若训练达到指定轮数或全局模型准确率达到设定的目标值,则退出;否则返回计算客户机选择概率的步骤进行下一轮训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110717168.4/2.html,转载请声明来源钻瓜专利网。