[发明专利]保护隐私的样本生成模型构建、仿真样本生成方法及装置有效
申请号: | 202010459358.6 | 申请日: | 2020-05-27 |
公开(公告)号: | CN111368337B | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 李龙飞;周俊 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 张明;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 保护 隐私 样本 生成 模型 构建 仿真 方法 装置 | ||
本说明书实施例提供一种保护隐私的样本生成模型构建、仿真样本生成方法及装置,在样本生成模型构建方法中,对真实样本集中多个真实样本进行聚类,确定N个类簇。对于N个类簇中任意的第一类簇,基于归属于第一类簇的各真实样本,训练对应于第一类簇的、具有差分隐私功能的子生成模型。基于N个类簇分别对应的N个子生成模型,形成样本生成模型。该样本生成模型用于基于原始样本生成对应的仿真样本。
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种保护隐私的样本生成模型构建、仿真样本生成方法及装置。
背景技术
为实现数据的共享,机构经常会对外发布数据。比如,医疗机构会对外发布医疗数据,以便于第三方进行研究。再比如,电商平台会对外发布电商数据。还比如,金融机构会对外发布金融数据等。然而,由于这些待发布数据通常为各机构的隐私数据,因此,在保护机构数据隐私的情况下,对外发布数据就称为要解决的问题。
传统技术中,为了实现机构数据的隐私保护,一般会先基于待发布的真实数据(也称真实样本),训练对应的样本生成模型,然后对外发布这个样本生成模型。
发明内容
本说明书一个或多个实施例描述了一种保护隐私的样本生成模型构建、仿真样本生成方法及装置,可以实现真实样本的隐私保护。
第一方面,提供了一种保护隐私的样本生成模型构建方法,包括:
对真实样本集中多个真实样本进行聚类,确定N个类簇;
对于所述N个类簇中任意的第一类簇,基于归属于所述第一类簇的各真实样本,训练对应于所述第一类簇的、具有差分隐私功能的子生成模型;
基于所述N个类簇分别对应的N个子生成模型,形成样本生成模型;所述样本生成模型用于基于原始样本生成对应的仿真样本。
第二方面,提供了一种保护隐私的仿真样本生成方法,包括:
获取样本生成模型,所述样本生成模型包括对应于N个类簇的、具有差分隐私功能的N个子生成模型;
获取原始样本,并确定所述原始样本所属类簇;
根据所述原始样本所属类簇,从所述N个子生成模型中选取若干子生成模型;
将所述原始样本分别作为所述若干子生成模型的输入;
通过所述若干子生成模型的输出,得到所述原始样本的仿真样本。
第三方面,提供了一种保护隐私的样本生成模型构建装置,包括:
聚类单元,用于对真实样本集中多个真实样本进行聚类,确定N个类簇;
训练单元,用于对于所述聚类单元确定的所述N个类簇中任意的第一类簇,基于归属于所述第一类簇的各真实样本,训练对应于所述第一类簇的、具有差分隐私功能的子生成模型;
形成单元,用于基于所述训练单元训练的所述N个类簇分别对应的N个子生成模型,形成样本生成模型;所述样本生成模型用于基于原始样本生成对应的仿真样本。
第四方面,提供了一种保护隐私的仿真样本生成装置,包括:
获取单元,用于获取样本生成模型,所述样本生成模型包括对应于N个类簇的、具有差分隐私功能的N个子生成模型;
确定单元,用于获取原始样本,并确定所述原始样本所属类簇;
选取单元,用于根据所述原始样本所属类簇,从所述N个子生成模型中选取若干子生成模型;
输入单元,用于将所述原始样本分别作为所述选取单元选取的所述若干子生成模型的输入;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010459358.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于飞行时间的测距方法和相关测距系统
- 下一篇:欺诈行为检测方法及装置