[发明专利]敏感数据的差分隐私保护方法和装置有效
申请号: | 201710697388.9 | 申请日: | 2017-08-15 |
公开(公告)号: | CN109409117B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 刘子奇;周俊;李小龙 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 开曼群岛大开曼岛西湾路8*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感数据 隐私 保护 方法 装置 | ||
1.一种敏感数据的差分隐私保护方法,所述敏感数据为n*d维的矩阵X,X可分解为n*k维的矩阵P和k*d维的矩阵Q的乘积,n、k、d为自然数,所述方法包括:
根据X、P和Q的取值范围,确定不小于的最大值的上确界B;xi为矩阵X的第i行,i为从1到n的自然数;为给定P、Q时,xi的似然函数;
按照正比于的后验分布进行采样,采样所得的P和Q即为满足∈-差分隐私的输出数据;为P和Q上的先验分布;所述采样根据下式进行:
2.根据权利要求1所述的方法,所述方法还包括:向数据挖掘方提供矩阵P,供数据挖掘方将矩阵P作为至少部分数据源进行数据挖掘。
3.根据权利要求1所述的方法,所述方法还包括:在确定上确界B前,按列对矩阵X进行归一化处理。
4.根据权利要求1所述的方法,所述X服从正态分布;所述的最大值根据X、P和Q的取值范围,以及所述正态分布的均值和方差确定。
5.根据权利要求1所述的方法,所述按照正比于的后验分布进行采样,包括:按照正比于的后验分布采用马尔科夫链蒙特卡洛采样方法或随机梯度哈密尔顿蒙特卡洛采样方法进行采样。
6.一种差分隐私保护的数据挖掘方法,包括:
获取n*k维的矩阵P;所述矩阵P通过对正比于的后验分布进行采样所得;所述采样根据下式进行:X为n*d维的矩阵,可分解为矩阵P和k*d维的矩阵Q的乘积;xi为矩阵X的第i行;为给定P、Q时,xi的似然函数;为P和Q上的先验分布;B为根据X、P和Q的取值范围,确定的不小于的最大值的上确界;n、k、d为自然数,i为从1到n的自然数,∈为差分隐私保护参数;
采用矩阵P生成训练样本,对数据挖掘模型进行训练。
7.根据权利要求6所述的方法,所述采用矩阵P生成训练样本,对数据挖掘模型进行训练,包括:将矩阵P作为部分数据源,与其他数据源进行数据融合后生成训练样本,对数据挖掘模型进行训练。
8.一种敏感数据的差分隐私保护装置,所述敏感数据为n*d维的矩阵X,X可分解为n*k维的矩阵P和k*d维的矩阵Q的乘积,n、k、d为自然数,所述装置包括:
上确界确定单元,用于根据X、P和Q的取值范围,确定不小于的最大值的上确界B;xi为矩阵X的第i行,i为从1到n的自然数;为给定P、Q时,xi的似然函数;
后验采样单元,用于按照正比于的后验分布进行采样,采样所得的P和Q即为满足∈-差分隐私的输出数据;为P和Q上的先验分布;所述采样根据下式进行:
9.根据权利要求8所述的装置,所述装置还包括:采样数据输出单元,用于向数据挖掘方提供矩阵P,供数据挖掘方将矩阵P作为至少部分数据源进行数据挖掘。
10.根据权利要求8所述的装置,所述装置还包括:归一化处理单元,用于在确定上确界B前,按列对矩阵X进行归一化处理。
11.根据权利要求8所述的装置,所述X服从正态分布;所述的最大值根据X、P和Q的取值范围,以及所述正态分布的均值和方差确定。
12.根据权利要求8所述的装置,所述后验采样单元具体用于:按照正比于的后验分布采用马尔科夫链蒙特卡洛采样方法或随机梯度哈密尔顿蒙特卡洛采样方法进行采样。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710697388.9/1.html,转载请声明来源钻瓜专利网。