[发明专利]一种基于EMD距离融合多源异构数据的联邦学习方法在审
申请号: | 202110447846.X | 申请日: | 2021-04-25 |
公开(公告)号: | CN113139603A | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 顾钊铨;李鉴明;仇晶;田志宏;方滨兴;丛悦;韩伟红;王乐;唐可可;李树栋;李默涵 | 申请(专利权)人: | 广州大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06F21/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 雷芬芬 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 emd 距离 融合 多源异构 数据 联邦 学习方法 | ||
本发明公开了一种基于EMD距离融合多源异构数据的联邦学习方法,其中,联邦模型进行训练包括:各参与方对己方本地数据Xi进行预处理并分块;中心服务器选取要训练的联邦模型并初始化模型参数;参与方结合本地数据对模型进行训练;各参与方计算各方数据块相对于整体模型的EMD距离,中心服务器对各方数据块的EMD距离从小到大排序,去掉EMD距离超过K的数据块,发送剩下的数据块编号给对应的参与方;对进入下一轮迭代的参与方的数据重新划分数据块,重复执行步骤S3‑S4,直到结果收敛。本发明可以定量地测量多源异构数据的质量,在模型逐步优化的过程中去掉不够优质的数据,提高了联邦模型最后的效果。
技术领域
本发明涉及计算机科学与技术中人工智能技术领域,具体涉及一种基于EMD距离融合多源异构数据的联邦学习方法。
背景技术
数据是人工智能的三个要素之一。然而,由于商业竞争、法律法规限制、数据来源和形式不同等因素,互联网中海量的数据往往都以数据孤岛的形式存在。联邦学习(Federated Learning)是一种加密的分布式机器学习,是能够打通数据壁垒、保护数据隐私的新兴技术。谷歌公司在论文“Communication-Efficient Learning of Deep Networksfrom Decentralized Data”(Mcmahan H B,Moore E,Ramage D,et al.Communication-Efficient Learning of Deep Networks from Decentralized Data[A/OL].arXiv.org,2016)首次提出了联邦学习的概念,并联合了成百上千的安卓手机,对其手机输入法GBoard进行优化,大大提升了用户体验。联邦学习可以联合多个数据源的数据,减少决策中的片面性和不确定性,从而得到比仅仅使用单一来源的数据更加全面、更加客观、更加准确的决策。联邦学习是一种分布式的机器学习,使得数据可以在不出本地的前提下协同进行机器学习模型的训练和迭代,克服了数据流通不便的障碍,把不同来源的数据联合利用的同时能够保护数据隐私。因此,联邦学习是发挥大数据价值的一个新思路。
多源数据融合的概念起源于上世纪七十年代军事系统的多传感器数据融合技术。随后,Waltz E等人的著作《Multisensor Data Fusion》使得多源数据融合正式成为一个技术概念,我国也有《数据融合理论与应用》等理论著作。目前来说多源数据融合包括了数据来源不同(如不同的传感器、不同的用户等)、数据种类不同(如图片数据及对应的文字描述等)以及数据分布不同(各部分数据并非严格服从相同的统计学分布)等多种复杂情况。单一来源的数据往往不够全面,具有偏向性,单一种类的数据很难完整表达出现实情况。而多源异构数据融合可以有效地利用数据之间的互补性,减少决策过程中的感知误差,提高决策的科学性和准确性。多源异构数据融合分为数据级、特征级、决策级三个层面。
针对联邦学习中多源异构数据的情况,目前主要有两种解决思路,一种是改变模型结构,以适应多源异构数据的复杂情况;另一种主要在于处理数据,在联邦模型训练前先对数据进行一定的处理以提高数据的可用性。然而,第一种解决思路是通过修改现有人工智能模型结构,可以在一定程度上适应联邦学习数据多源异构的复杂情况,但对于现有模型的修改难度大、周期长,修改后的模型还要经过验证与证明在多源异构数据上会收敛,且这种修改往往针对现存异构数据的情况,难以适应多源异构数据变化大的需求;第二种解决思路多源异构数据由于自身分布不同等原因,即使经过处理也很难使得现有模型达到其在标准数据集如CIFAR-10、MNIST等的效果。
综上,行业内急需研发一种不用修改联邦学习中现有模型,给多源异构数据的质量评估提供参考标准,提升联邦模型效果的联邦学习方法。
发明内容
本发明的目的是为了克服以上现有技术存在的不足,提供了一种不用修改联邦学习中现有模型且能提升联邦模型效果的基于EMD距离融合多源异构数据的联邦学习方法。
本发明的目的通过以下的技术方案实现:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110447846.X/2.html,转载请声明来源钻瓜专利网。