[发明专利]敏感数据的差分隐私保护方法和装置有效
申请号: | 201710697388.9 | 申请日: | 2017-08-15 |
公开(公告)号: | CN109409117B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 刘子奇;周俊;李小龙 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 开曼群岛大开曼岛西湾路8*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感数据 隐私 保护 方法 装置 | ||
本说明书提供一种敏感数据的差分隐私保护方法,所述敏感数据为n*d维的矩阵X,X可分解为n*k维的矩阵P和k*d维的矩阵Q的乘积,n、k、d为自然数,所述方法包括:根据X、P和Q的取值范围,确定不小于的最大值的上确界B;xi为矩阵X的第i行,i为从1到n的自然数;为给定P、Q时,xi的似然函数;按照正比于的后验分布进行采样,采样所得的P和Q即为满足∈‑差分隐私的输出数据;为P和Q上的先验分布。
技术领域
本说明书涉及数据处理技术领域,尤其涉及一种敏感数据的差分隐私保护方法和装置、和一种差分隐私保护的数据挖掘方法和装置。
背景技术
随着互联网的发展和普及,各种基于网络进行的活动都在源源不断的产生数据,许多企业、政府甚至个人等都掌握着大量的用户数据。数据挖掘技术能够从大量的数据中发现有价值的知识、模式、规则等信息,为科学研究、商业决策、过程控制等提供辅助支持,成为数据利用的重要方式。
在一些应用场景中,用于挖掘的数据包含了很多敏感信息,例如金融行业的数据、政府部门的数据等。如何将这些敏感信息在数据挖掘的过程中作为隐私保护起来,成为一个越来越受人关注的问题。
差分隐私(DP,Differential Private)定义了一个可量化敏感信息泄露风险的模型,形式化地,如果存在一个正实数∈0,一个随机化算法其输入域为对于任意输入数据集且X,Y相差仅为一条记录,以及的映射的任意子集S,如果式1成立,则算法满足∈-差分隐私。
式1中,P(·)表示敏感信息被泄露的概率;∈是差分隐私保护参数,表示保护能力的强弱,∈越大保护能力越差,越小保护能力越好。
可见,差分隐私限制了任意一条记录对算法输出结果的影响,使得通过分析算法的输出结果能够获取的输入数据集中某条记录的信息,几乎和没有这条记录的输入数据集中能获取的相差无几。而将差分隐私技术应用于实际场景时,其难点在于设计出能处理大规模数据的高效算法。
发明内容
有鉴于此,本说明书提供一种敏感数据的差分隐私保护方法,所述敏感数据为n*d维的矩阵X,X可分解为n*k维的矩阵P和k*d维的矩阵Q的乘积,n、k、d为自然数,所述方法包括:
根据X、P和Q的取值范围,确定不小于的最大值的上确界B;xi为矩阵X的第i行,i为从1到n的自然数;为给定P、Q时,xi的似然函数;
按照正比于的后验分布进行采样,采样所得的P和Q即为满足∈-差分隐私的输出数据;为P和Q上的先验分布。
本说明书提供的一种差分隐私保护的数据挖掘方法,包括:
获取n*k维的矩阵P;所述矩阵P通过对正比于的后验分布进行采样所得;X为n*d维的矩阵,可分解为矩阵P和k*d维的矩阵Q的乘积;xi为矩阵X的第i行;为给定P、Q时,xi的似然函数;为P和Q上的先验分布;B为根据X、P和Q的取值范围,确定的不小于的最大值的上确界;n、k、d为自然数,i为从1到n的自然数,∈为差分隐私保护参数;
采用矩阵P生成训练样本,对数据挖掘模型进行训练。
本说明书还提供了一种敏感数据的差分隐私保护装置,所述敏感数据为n*d维的矩阵X,X可分解为n*k维的矩阵P和k*d维的矩阵Q的乘积,n、k、d为自然数,所述装置包括:
上确界确定单元,用于根据X、P和Q的取值范围,确定不小于的最大值的上确界B;xi为矩阵X的第i行,i为从1到n的自然数;为给定P、Q时,xi的似然函数;
后验采样单元,用于按照正比于的后验分布进行采样,采样所得的P和Q即为满足∈-差分隐私的输出数据;为P和Q上的先验分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710697388.9/2.html,转载请声明来源钻瓜专利网。