[发明专利]一种基于核心数据集的联邦学习通信量优化方法及系统在审
申请号: | 202011240064.0 | 申请日: | 2020-11-09 |
公开(公告)号: | CN112364913A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 肖春华;李开菊 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/06;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 核心 数据 联邦 学习 通信 优化 方法 系统 | ||
本发明涉及联邦机器学习领域,公开了一种基于核心数据集的联邦学习通信量优化方法及系统。本发明中,首先,每个终端用户并行地从本地训练数据中筛选出核心数据,云中心根据设置的稀疏化比例构建稀疏化的全局模型,每个终端用户根据其筛选出的本地核心数据进行本地模型训练,得到本地模型更新。然后,为了全局模型更加适应本地核心数据,云中心根据聚集本地模型更新得到的全局模型更新,对全局模型的网络结构进行调整,其中包括移除不重要的连接和添加重要连接两个步骤。最后,云中心分发调整之后的全局模型给每个终端用户,迭代以上步骤,直至全局模型收敛。本发明通过从终端用户筛选核心数据,部署适配的稀疏化网络模型,减少了终端用户与云中心模型参数的上传,从本质上解决了联邦学习技术中,终端用户与云中心频繁传递高维更新参数所导致的高通信代价问题。
技术领域
本发明涉及联邦机器学习领域,更具体地,涉及一种基于核心数据集的联邦学习通信量优化方法及系统,用于解决联邦学习技术中终端用户/设备与云中心频繁传递高维更新参数所导致的高通信代价问题。
背景技术
机器学习作为人工智能领域的一个重要分支,被成功且广泛的应用于模式识别、数据挖掘和计算机视觉等各个领域。由于终端设备计算资源受限,目前对于机器学习模型的训练通常采用基于云的方式,在这种方式中,终端设备所收集的数据,如图片、视频,或个人位置信息,必须全部上传至云中心,并由云中心集中完成模型的训练,得到推理模型。然而,上传用户的敏感数据会泄露其隐私信息,随着用户隐私意识的增强,越来越多的用户不愿共享其隐私数据参与模型的训练。从长远来看,这严重阻碍了机器学习技术的发展和应用。
因此,为了保护用户的敏感数据,同时又不影响机器学习模型的训练,联邦学习应运而生。在联邦学习环境中,终端用户不用上传其本地敏感数据至云中心,而只需共享其本地模型更新参数,云中心与终端用户多次交互,直至全局模型收敛,既保护了用户的敏感数据,又得到了最终的可用模型。
由于在联邦学习环境中,终端用户与云中心需要多轮交互才能获得目标精度的全局模型。那么,对于复杂的模型训练,如深度学习模型训练,每次模型更新可能包含数百万个参数,模型更新的高维性将耗费大量的通信成本,甚至成为一个模型训练瓶颈。此外,由于终端用户/设备的异构性,每个设备网络状态的不可靠性以及互联网连接速度的不对称性,如上传速度远小于下载速度,导致终端用户上传本地更新参数的延迟,都会使模型训练瓶颈进一步恶化,因此,为了提高联邦学习模型训练性能,必须提高其通信效率。
目前,为了提高联邦学习的通信效率问题,国内外研究学者纷纷对其进行了大量研究,并提出了许多有效的通信优化方法。这些方法主要是通过考虑模型参数的冗余特性,对本地模型更新参数进行稀疏化、轻量化或者知识蒸馏等模型压缩操作,减少冗余参数的上传,使上传的模型更新更加紧致,从而达到减少通信量的目的。然而,这些方法都是从模型参数的角度考虑通信量的减少,而没有从本质上解决该问题。众所周知,模型参数是根据本地数据训练得到的,而数据本身具有冗余性,因此,可以从数据本身出发,通过提取重要数据进行模型训练,从本质上减少冗余参数的上传,从而达到减少通信量的目的,但目前的通信量减少方法仅仅只考虑了模型参数的冗余特性,而没有考虑数据的冗余特性。同时,现有方法虽然对模型参数进行稀疏化或轻量化的操作,减少了冗余参数的上传,但是他们对网络模型本身也没有进行操作,而模型本身也具有冗余特性。因此,在通信量减少的方法中,为了从本质上减少冗余参数的上传,我们不仅要考虑数据的冗余特性,同时也要考虑模型本身的冗余性,而现有方法都没有考虑这两个特性。
综合所述,为了弥补基于云训练所造成的用户敏感数据泄露以及模型可用性问题,联邦学习应运而生。然而由于模型训练参数的高维性以及联邦学习环境中网络的不可靠性,使得通信代价问题成为联邦学习中基础且重要的问题。虽然现有研究方法从减小通信量的角度提出了许多有效的通信优化方法,但他们都是从模型参数出发考虑通信量的减少,而没有从训练数据和模型本身出发,考虑从本质上减少冗余参数上传,因此,为了更好的解决联邦学习的高通信代价问题,需要充分考虑训练数据和模型本身的冗余特性,从本质上减少冗余参数的上传,从而达到减少通信量的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011240064.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置