[发明专利]基于主成分分析优化的差分隐私高维数据发布保护方法有效
申请号: | 201910608605.1 | 申请日: | 2019-07-08 |
公开(公告)号: | CN110334546B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 史伟;李万杰;张兴;张青云 | 申请(专利权)人: | 辽宁工业大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
代理公司: | 北京远大卓悦知识产权代理有限公司 11369 | 代理人: | 周婷 |
地址: | 121001 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 成分 分析 优化 隐私 数据 发布 保护 方法 | ||
1.基于主成分分析优化的差分隐私高维数据发布保护方法,其特征在于,包括以下步骤:
步骤一、计算原始数据属性的信息熵,确定属性重要度阈值,对所述原始数据中的属性进行筛选;
步骤二、利用主成分分析法对筛选数据进行降维,确定最优k值,从而确定最佳的发布数据;
其中,在降维过程中,产生的投影矩阵进行个性化的加噪得到加噪数据,并且使所述加噪数据满足差分隐私;以及
在降维过程中,进行多次的主成分个数k值的选取,通过互信息评价机制,计算所述原始数据与所述加噪数据的互信息,确定了所述最优k值;
所述步骤二中,数据降维过程中加噪的方法为:
对筛选后的数据Do的数据矩阵为X进行归一化处理:X-X;
计算数据集中的数据记录的协方差矩阵:
其中,m为数据集中数据记录个数;
对协方差矩阵进行特征分解:
Cov=UTCU
其中,C为协方差矩阵Cov特征分解后的对角矩阵,U表示特征值所对应的特征向量构成的特征矩阵;
选取k个特征值所对应的k个特征向量组成矩阵Uk,将原始数据投影到矩阵Uk上,得到投影矩阵:
在投影矩阵Z中添加Laplace噪声,得到噪声矩阵Zo;
还原得到原始数据矩阵的低阶近似矩阵:
所述Laplace噪声具体为:
数据集D,对于任一查询函数f:D→Rd,其敏感度为Δf,则随机算法A(D)=f(D)+Y提供ε-差分隐私保护;其中,Y~Lap(Δf/ε)为随机噪声,表示Y是服从尺度参数为Δf/ε的Laplace噪声分布,ε为隐私预算,Rd为数据集D的经过查询函数f所对应的值域;
互信息评价机制:
计算不同主成分个数k值下的噪声数据与原始数据的互信息大小,利用均值法,将最接近均值的k值,作为发布数据安全性和实用性达到最优的主成分个数;
所述互信息满足:
其中,X和Y表示两个离散随机变量;p(x,y)表示X和Y的联合概率分布函数;p(x)和p(y)分别表示X和Y的边缘概率分布函数;
在所述步骤一中,对原始数据中的属性进行筛选的具体方法为:
计算原始数据集D中各个属性的信息熵,按照信息熵的大小排列属性,属性重要度阈值作为界限,将信息熵大于阈值的属性保留,信息熵小于阈值的属性剔除,得到筛选后数据集Do;
所述步骤二中,所述主成分分析法具体为:
对多个原始随机变量组成的数据集X={x1,x2,…,xn}的协方差矩阵进行分解,重新组合转变为几个各维度间彼此不相关的变量Q={y1,y2,…,ym},mn。
2.根据权利要求1所述的基于主成分分析优化的差分隐私高维数据发布保护方法,其特征在于,所述步骤一中信息熵H(X)计算方法为:
其中,X为离散型随机变量,p(x)表示x发生的概率。
3.根据权利要求2所述的基于主成分分析优化的差分隐私高维数据发布保护方法,其特征在于,所述属性重要度阈值Th满足:
其中,Th为属性重要度阈值,k为选取主成分的个数,N为所有属性个数。
4.根据权利要求3所述的基于主成分分析优化的差分隐私高维数据发布保护方法,其特征在于,所述差分隐私具体包括:
对于随机算法A,当其满足以下关系式,则算法A满足ε-差分隐私:
Pr[A(D)∈S]≤eε×Pr[A(D′)∈S]
其中,概率Pr[·]为算法的概率,ε为隐私预算,D和D'为两个完全相同或者至多相差一条记录的数据集,S为A的值域的子集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工业大学,未经辽宁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910608605.1/1.html,转载请声明来源钻瓜专利网。