[发明专利]一种联邦学习场景中高效的错误数据检测方法在审
申请号: | 202010961288.4 | 申请日: | 2020-09-14 |
公开(公告)号: | CN112214342A | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 张兰;李向阳;李安然 | 申请(专利权)人: | 德清阿尔法创新研究院 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06N20/00 |
代理公司: | 杭州九洲专利事务所有限公司 33101 | 代理人: | 陈琦;陈继亮 |
地址: | 313200 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联邦 学习 场景 高效 错误 数据 检测 方法 | ||
1.一种联邦学习场景中高效的错误数据检测方法,其特征在于所述该方法主要包括以下模块:层次化影响分析、基于影响值的用户选择和模型更新,所述层次化影响分析为给定一训练完成的全局模型和多个测试错误的测试数据,server S首先根据server端的训练日志来确定对模型存在负影响的用户,通过server使用适用于联邦系统的影响函数协调所有负影响的用户,以定位他们含有的错误样本,并通过两种检测错误样本的算法以节省计算资源或通信资源的开销,并自适应地使用该两种算法,所述基于影响值的用户选择和模型更新为给定错误样本识别结果,server要求含有错误数据的用户删除错误样本,并根据用户的影响值来调整用户被选中的概率,重新参与联邦训练得到模型由于负影响用户被选中的概率被降低,正影响用户被选中的概率被提高,从而模型收敛速度得以提高。
2.根据权利要求1所述的联邦学习场景中高效的错误数据检测方法,其特征在于所述两种检测错误样本的算法为:
a)检测含有错误数据的用户:server使用联邦学习的训练日志(用户的模型更新参数来定位异常更新的参数,从而确定含有错误数据的用户。根据训练日志的后半部分更新(tT/2),server计算用户Ck的本地更新和全局更新的距离当用户Ck被选中时,反之是用户Ck在训练的后半部分被选中的次数。如果用户Ck的距离远大于所有用户的中位距离(如,高出一个数量级),即则用户Ck是含有错误数据的用户。
b)检测错误数据:当检测出含有错误数据的用户之后,server将根据联邦学习的影响函数进一步检测错误数据。为了在检测过程中保护用户隐私,server无法直接访问本地数据。当给定一训练完成的模型和被错误预测的测试样本集DT,错误数据检测的方法如下:对每个测试样本ztest∈DT,server与每个负影响用户Ck合作计算每个训练数据zk,i的影响函数值If(zk,i),如果影响函数值远大于负影响用户的影响值的中位数则该数据是错误数据。
3.根据权利要求2所述的联邦学习场景中高效的错误数据检测方法,其特征在于所述节省计算资源或通信资源的开销方法为:
i)首先计算然后计算我们对进行泰勒展开,通过多次随机选择用户,随机采样该用户的部分数据,计算估计出stest,计算If(zk,i)检测出错误数据。
ii)节省通信开销的错误数据样本检测:我们采用基于Randomized Kaczmarz(RK)的算法以更少的通信开销计算If(zk,i).具体来说,server每次随机选择一个用户,该用户计算的第l行hl,然后将其发送给server,server使用RK算法迭代计算出的估计值,最终计算出If(zk,i)检测出错误数据。
iii)自适应调整:在联邦学习系统中,大量用户在计算资源,网络状态和带宽方面表现出极大的多样性。在对错误样本检测过程开始时,server要求所有用户报告其资源限制或资源消耗偏好,然后server根据多数用户的偏好来选择是使用计算效率高的错误数据检测还是节省通信开销的错误数据检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于德清阿尔法创新研究院,未经德清阿尔法创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010961288.4/1.html,转载请声明来源钻瓜专利网。