[发明专利]一种联邦学习中基于易遗忘数据子集的遗忘验证方法在审
申请号: | 202110865047.4 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113591974A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 王竟亦;高向珊;马兴军;孙有程;程鹏;车欣 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联邦 学习 基于 遗忘 数据 子集 验证 方法 | ||
本发明公开了一种联邦学习中基于易遗忘数据子集的遗忘验证方法,该方法利用在某些损失变化幅度较大、频率较高的摇摆数据上的特定表现来标记遗忘用户和检查遗忘情况。作为遗忘验证数据集,这些数据是通过观察全局模型在联邦学习的过程中在遗忘用户的本地数据上的损失变化筛选出来的。待遗忘用户在本地数据集上微调全局模型,形成标记后的模型,上传给中心服务器聚合。遗忘用户通过检查接下来若干个周期的全局模型,根据全局模型在遗忘验证数据集上的损失方差来衡量遗忘情况。本发明提出的这种遗忘验证方法具有轻量级,持续性强,验证效果好,时间和空间开销少等优点,可以有效鉴别遗忘与否,能够广泛应用和部署在各种需要进行遗忘验证的场景中。
技术领域
本发明涉及联邦学习数据遗忘验证领域,具体涉及一种联邦学习中基于易遗忘数据子集的遗忘验证方法。
背景技术
联邦学习已成为一种保隐私的分布式协作学习框架,所有参与者可以共同训练一个强大的模型,而无需共享他们的私人数据。联邦学习的一个基本要求是允许参与者没有顾虑地自由加入或离开,即关于离开用户的私人数据应该被中心服务器主动遗忘。离开的用户享有数据遗忘权,这项权利已经在一些数据法案中明确规定,例如通用数据保护法规(GDPR)和加州消费者隐私法(CCPA)等。已经有一些主动遗忘的方法,例如重训练等。然而具体的遗忘操作不是用户重点关心的,用户更关心遗忘是否可以验证以及如何验证,即我的个人数据是否被成功遗忘,以及遗忘的效果如何。然而联邦学习中的遗忘验证不能通过简单的遗忘数据上的性能判断,因为联邦学习是一种分布式协作学习框架,个人退出对于大规模联邦学习的影响较小,其他人的贡献使得联邦学习的全局模型依然在退出用户的个人数据上维持较好的性能。因此,如何设计一种安全的联邦遗忘验证算法以高效可靠可信地验证数据遗忘的情况,是目前有效验证数据遗忘权是否被正常提供的一大难题。
一种有效验证联邦学习中的数据遗忘的可能解决方案是以某种方式标记遗忘用户,并检查该遗忘用户离开后标记是否被清除。潜在的假设是,标记可以有效地唯一标记该遗忘用户。完整的验证过程分为两个阶段:标记和检查。联邦遗忘验证中的标记功能需要一些特定的特征,包括专一性(特定属于离开用户)、持久性(持久验证遗忘)等。针对每种标记方法,检查全局模型在标记数据上的性能,评估遗忘程度。
发明内容
针对现有联邦学习遗忘验证的匮乏,本发明公开了一种联邦学习中基于易遗忘数据子集的遗忘验证方法,该方法利用在某些损失变化幅度较大、频率较高的摇摆数据(即具有较大的损失方差)上的特定表现来标记遗忘用户和检查遗忘情况。
本发明的目的是通过以下技术方案来实现的:一种联邦学习中基于易遗忘数据子集的遗忘验证方法,该方法包括模型微调阶段、数据筛选阶段以及检查遗忘阶段;
所述模型微调阶段,在本地数据集上微调联邦学习中下发的全局模型,并记录联邦学习过程中每一个本地数据上的损失变化;
所述数据筛选阶段,筛选出本地数据集中的固定比例的损失方差较大的数据(例如将遗忘用户的本地数据的损失方差值从高到低排序,选择排序前10%的数据),也即将损失变化较大且较频繁的数据筛选出来组成易遗忘的摇摆数据验证集,这些易摇摆数据也被看作是容易遗忘的关键数据;
所述检查遗忘阶段,遗忘用户追踪检查接下来若干个周期的全局模型,根据全局模型在易遗忘的摇摆数据验证集上的损失方差来衡量遗忘情况。
进一步地,这些易遗忘的摇摆数据是遗忘用户个人私有的,且只有该用户的模型可以在易遗忘的摇摆数据验证集上维持较低的损失方差,这种在该验证集上的特定性能是唯一属于且可以标记该遗忘用户的,并且因为没有引入或生成额外的数据,仅仅是利用了遗忘用户的本地数据,该方法并没有造成额外的空间开销。
进一步地,所述模型微调阶段中,在本地数据集上微调联邦学习中下发的全局模型得到本地模型,这个本地模型也是标记后的个人模型,并且在联邦学习的过程中始终记录本地所有数据上的损失值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110865047.4/2.html,转载请声明来源钻瓜专利网。