[发明专利]一种联邦学习中基于易遗忘数据子集的遗忘验证方法在审
申请号: | 202110865047.4 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113591974A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 王竟亦;高向珊;马兴军;孙有程;程鹏;车欣 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联邦 学习 基于 遗忘 数据 子集 验证 方法 | ||
1.一种联邦学习中基于易遗忘数据子集的遗忘验证方法,其特征在于,该方法包括模型微调阶段、数据筛选阶段以及检查遗忘阶段;
所述模型微调阶段,在本地数据集上微调联邦学习中下发的全局模型,并记录联邦学习过程中每一个本地数据上的损失变化;
所述数据筛选阶段,筛选出本地数据集中的固定比例的损失方差较大的数据,组成易遗忘的摇摆数据验证集;
所述检查遗忘阶段,遗忘用户追踪检查接下来若干个周期的全局模型,根据全局模型在易遗忘的摇摆数据验证集上的损失方差来衡量遗忘情况。
2.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法,其特征在于,所述易遗忘的摇摆数据是遗忘用户个人私有的,且只有该用户的模型可以在易遗忘的摇摆数据验证集上维持较低的损失方差,这种在该验证集上的特定性能是唯一属于且可以标记该遗忘用户的,并且因为没有引入或生成额外的数据,仅仅是利用了遗忘用户的本地数据,并没有造成额外的空间开销。
3.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法,其特征在于,所述模型微调阶段中,在本地数据集上微调联邦学习中下发的全局模型得到本地模型,该本地模型也是标记后的个人模型,并且在联邦学习的过程中始终记录本地所有数据上的损失值。
4.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法,其特征在于,所述数据筛选阶段,筛选出本地数据集中的固定比例的损失方差较大的数据,也即将损失变化较大且较频繁的数据筛选出来组成易遗忘的摇摆数据验证集,这些易摇摆数据也被看作是容易遗忘的关键数据,具体表现为:该数据在前后两个相邻周期上的损失相差较大,通过记录每条数据在本地模型微调过程中损失的变化来找到本地损失方差较大的数据;这些易摇摆数据可以很好地标记本地模型,遗忘掉该用户的全局模型在这些易遗忘的摇摆数据验证集上的表现与没有遗忘时有较明显的区别。
5.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法,其特征在于,所述检查遗忘阶段具体为:计算全局模型在易遗忘的摇摆数据验证集上的损失方差,并在每个周期内计算验证集上平均的损失方差,并根据全局模型是否在该验证数据集上保持一个较小的损失方差判断遗忘情况,若全局模型在验证数据集上能够保持一个较小的损失方差,则说明联邦学习没有遗忘该用户,否则该用户被遗忘成功。
6.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法,其特征在于,所述模型微调阶段中的微调后的模型,即标记模型在所述数据筛选阶段中生成的易遗忘的摇摆数据验证集上保持较小的损失方差,这是独属于标记模型的特定行为,究其原因,标记模型已经在这些易遗忘的摇摆数据验证集上微调过,可以保持较小的损失和损失方差。
7.根据权利要求1所述的一种联邦学习中基于易遗忘数据子集的遗忘验证方法,其特征在于,所述检查遗忘阶段中,通过追踪全局模型在验证集上的表现验证数据遗忘与否,具体为:只有标记后的本地模型在验证集上保持较小的损失方差,其他用户的模型不具有这样的性质,所以可以通过检查全局模型在验证集上的损失方差来判断是否成功遗忘该用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110865047.4/1.html,转载请声明来源钻瓜专利网。