[发明专利]一种隐私保护的生成模型构建方法在审
申请号: | 202210539948.9 | 申请日: | 2022-05-18 |
公开(公告)号: | CN114943101A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 王绍蔚;钟裕森;邹旺文;杨蕊琳 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F21/71 | 分类号: | G06F21/71;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 广州高炬知识产权代理有限公司 44376 | 代理人: | 孙明科 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 隐私 保护 生成 模型 构建 方法 | ||
本发明公开了一种隐私保护的生成模型构建方法,其包括如下步骤:基于与生成器相对,用于判别生成器生成数据的真假概率的判别器;用于学习每个客户端的数据类别的判断的大模型教师判别器;基于通过教师判别器的引导来学习各客户端的共同规律进行判别的小模型学生判别器;用于生成模拟真实数据的样本的生成器;基于多个样本组成的数据集合的数据集;隐私预算;基于去偏判别器蒸馏的差分隐私数据生成器。本发明通过有益样本选择方法,界定一个阈值,组成一个数据集来训练学生判别器,使得学生判别器在不影响学习效果的情况下,还能在较少训练所需样本数量情况下,实现比现有方法更好的的保护隐私的效果。
技术领域
本发明涉及隐私保护技术领域,具体涉及一种隐私保护的生成模型构建方法。
背景技术
联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在2016年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。其中,联邦学习可使用的机器学习算法不局限于神经网络,还包括随机森林等重要算法。目前,减小隐私消耗和模型大小是联邦学习的前沿领域。
生成对抗网络拥有较强的生成高维或者随机数据的能力,训练完成后能用来生成无限的数据,而生成对抗网络的这个特点,能使得数据不再需要额外的交互和隐私损失,从而有效保护隐私,因为在生成对抗网络的训练过程中,只有判别器接触了数据,生成器根据假数据的梯度来更新参数。一个流行的方法是,周期性的计算收集自客户端的判别器的梯度或者参数,比如DPGAN,由于判别器参数一般和分类器参数一样多,所以判别器的传输会导致很高的通讯和隐私开销。一个有效的不同的方法G-PATE是,直接平均生成器的输出(比如虚假数据)的梯度,但是通讯和隐私开销依然会随着数据规模的增大而增大。考虑到客户端的数据异构,有方法进一步提出,基于样本特定权重向量的伪数据样本加权梯度平均,但是这个方法也使得使严格的隐私净化变得难以处理。
为了解决因为梯度维度的增加导致通讯和隐私开销急剧增大的问题,研究者最近在联邦对抗生成网络学习上,探索聚合的知识蒸馏,它是一种高效通讯、隐私友好的新方法。比如PATE-GAN,它用教师判别器对假数据判断得到的蒸馏标签来训练一个全局学生判别器。其中教师判别器是在本地用真、假数据一起训练的。全局生成器的训练只依赖于学生判别器而没有接触过真数据。在无隐私设置下,PATE-GAN在实验中,实现了堪比基于梯度的方法的性能,而且在有隐私限制下表现得更出色。
PATE-GAN的缺点是存在偏差现象。PATE-GAN中的标签蒸馏只是借用了分类问题中的知识蒸馏。但是,相较于分类问题中的客观确定的标签是,容易在客户端之间达成共识,判别器标签是主观的,它只能给出样本属于某一类的概率,并不能保证判断结果与真实结果的正确性。这个矛盾说明了判别器蒸馏中平均聚合是有问题的,而且实验证明这个偏差会随着数据异构和隐私噪声的增加而增加。而我们提出的新方法通过选择有益样本来减小这种偏差。此外,通过实验,我们发现对于异构数据,在对抗生成网络的生成器和判别器的对抗中,它的按照传统平均置信度来聚合的效果不好,所以我们提出了β百分比的聚合方法(方法)。
在中国专利文献CN112818407B公开了一种基于分布式生成对抗模型的联邦学习方法,其也用到了联邦学习、知识蒸馏和对抗生成网络结合的方法。虽然在客户端通过结合判别器和分类器,避免了判别器的偏差问题,但是也导致需要在客户端训练两个模型,占用较多计算资源,同时该方法也没有考虑客户端的隐私保护等问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供一种隐私保护的生成模型构建方法,以解决上述背景所提出的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:
一种隐私保护的生成模型构建方法,其包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210539948.9/2.html,转载请声明来源钻瓜专利网。