[发明专利]一种联邦学习场景中高效的错误数据检测方法在审
申请号: | 202010961288.4 | 申请日: | 2020-09-14 |
公开(公告)号: | CN112214342A | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 张兰;李向阳;李安然 | 申请(专利权)人: | 德清阿尔法创新研究院 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06N20/00 |
代理公司: | 杭州九洲专利事务所有限公司 33101 | 代理人: | 陈琦;陈继亮 |
地址: | 313200 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联邦 学习 场景 高效 错误 数据 检测 方法 | ||
一种联邦学习场景中高效的错误数据检测方法,其特征在于所述该方法主要包括以下模块:层次化影响分析、基于影响值的用户选择和模型更新,所述层次化影响分析为给定一训练完成的全局模型和多个测试错误的测试数据,server S首先根据server端的训练日志来确定对模型存在负影响的用户,本发明采用了层次化的检测方法,检测方法高效;同时分别设计了优化计算资源和通信资源的检测方法,检测算法适应性强;另外,整个检测过程本地数据不暴露给任意第三方,检测算法保护了用户隐私。
技术领域
本发明涉及的联邦学习场景中高效的错误数据检测方法,属于数据分析与数据质量评估领域。
背景技术
现如今,随着人工智能和移动计算的飞速发展,边缘和移动设备正产生大量的数据。由于网络带宽有限和数据隐私等问题,将所有数据上传到云端处理和使用已不再实际。联邦学习的出现使得终端用户利用本地数据联合训练网络模型成为可能。在联邦学习过程中,用户本地的数据质量影响全局模型的性能,大量的错误数据(例如,错误标签数据)将严重阻碍全局模型取得良好的效果。
本发明旨在高效的检测出用于联邦学习训练的本地数据中的错误数据,并以较小的代价来修复错误,从而提升联邦学习系统的性能。
针对深度学习的数据错误检测已有一系列工作,但他们都不适用于联邦学习系统,相关的技术包括模型的鲁棒性和可解释性研究,他们旨在通过分析数据样本对模型预测的影响来解释模型行为。在集中式学习中,现有工作通常使用影响函数(influencefunction)来评估训练样本对模型的影响,但他们不能直接用于联邦系统中:1)现有的影响函数方法是为集中式模型训练而设计,并且需要直接访问原始训练数据,而在联邦系统中,数据不能被第三方直接访问到;2)即使以某种方式访问到本地数据,现有的影响函数评估会带来大量的计算和通信开销,这对于联邦系统中资源受限的设备是不可接受的。
发明内容
本发明高效的检测出用于联邦学习训练的本地数据中的错误数据,并以较小的代价来修复错误,提升联邦学习系统的性能。
本发明的目的是通过以下技术方案实现的:一种联邦学习场景中高效的错误数据检测方法,所述该方法主要包括以下模块:层次化影响分析、基于影响值的用户选择和模型更新,所述层次化影响分析为给定一训练完成的全局模型和多个测试错误的测试数据,serverS首先根据server端的训练日志来确定对模型存在负影响的用户,通过server使用适用于联邦系统的影响函数协调所有负影响的用户,以定位他们含有的错误样本,并通过两种检测错误样本的算法以节省计算资源或通信资源的开销,并自适应地使用该两种算法,所述基于影响值的用户选择和模型更新为给定错误样本识别结果,server要求含有错误数据的用户删除错误样本,并根据用户的影响值来调整用户被选中的概率,重新参与联邦训练得到模型由于负影响用户被选中的概率被降低,正影响用户被选中的概率被提高,从而模型收敛速度得以提高。作为优选:所述两种检测错误样本的算法为:
a).检测含有错误数据的用户:server使用联邦学习的训练日志(用户的模型更新参数)来定位异常更新的参数,从而确定含有错误数据的用户。根据训练日志的后半部分更新(tT/2),server计算用户Ck的本地更新和全局更新的距离当用户Ck被选中时,反之是用户Ck在训练的后半部分被选中的次数。如果用户Ck的距离远大于所有用户的中位距离(如,高出一个数量级),即则用户Ck是含有错误数据的用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于德清阿尔法创新研究院,未经德清阿尔法创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010961288.4/2.html,转载请声明来源钻瓜专利网。