[发明专利]一种用于局部差异隐私下的边际释放的一致自适应边际在审
申请号: | 202010778159.1 | 申请日: | 2020-08-05 |
公开(公告)号: | CN112052475A | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 王之涵 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
代理公司: | 北京权智天下知识产权代理事务所(普通合伙) 11638 | 代理人: | 蔡金花 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 局部 差异 隐私 边际 释放 一致 自适应 | ||
1.一种用于局部差异隐私下的边际释放的一致自适应边际,其特征在于,包括以下步骤:
S1:聚合器将总体随机分为大小相同的m个组;
S2:选择一组m个边际集和要使用的FO协议;
S3:聚合器将每个用户分配给边际之一,并通知用户应报告哪个边际;
S4:每个用户将其私人价值v投影到他要报告的边际上,并通过FO报告v的预测值;
S5:服务器在接收到用户的报告后,使用FO的聚合算法来获取嘈杂的边缘表;
S6:给定这些嘈杂的边际/视图,可以直接计算一些三向边际;
S7:生成k向边距。
2.根据权利要求1所述的一种用于局部差异隐私下的边际释放的一致自适应边际,其特征在于:所述步骤S1中,分组的具体步骤为:
S11:对混合属性数据表可行的差分隐私保护方法
为加强隐私保护和提高数据可用性,提出一种可对混合属性数据表执行差分隐私的数据保护方法,该方法首先采用ICMD聚类算法对数据进行聚类匿名,然后在此基础上进行ε-差分隐私保护,ICMD聚类算法对数据表中的分类属性和数值属性采用不同方法计算距离和质心,并引入全序函数以满足执行差分隐私的要求,通过聚类,实现了将查询敏感度由单条数据向组数据的分化,降低了信息损失和信息纰漏的风险,
对于查询函数f,若算法A有则算法A满足ε-差分隐私,其中,Δf表示查询函数的敏感性,指的是查询函数f作用于邻近数据集时产生的最大距离差,添加拉普拉斯噪声引起的误差
S12:混合型数据表中距离和质心计算
现有数据大多数为混合型数据表,即表中的数据属性既有数值型又有分类型,针对不同属性的数据有不同的距离计算和质心求解方法,采用单一的方法往往会造成信息丢失、质心偏差等问题,因而提出一种针对混合型数据表的距离计算和质心求解方法,
设混合型数据集D以及X,Y为数据集D中的记录,每一个记录具有p维分类属性和q维数值属性,计算数据记录X,Y的距离d(X,Y)c,首先分别计算其分类属性距离d(X,Y)n,定义如下:
S121:分类距离
对于数据表中的任意记录X,Y,假设数据表含有p维分类属性,则记录X,Y的分类属性部分的距离定义为:
其中,
由式中可知,每维分类属性取值[0,1],对于指数型,如果采用海明距离作为每维数据的距离,会导致分类属性部分的距离被数值属性部分的距离湮灭,因而采用如下定义计算数值属性距离;
S122:数值距离
首先将数据记录的数值属性部分的每一维进行标准化处理,即X第q维值为其中为该维数据记录的最大值,为该维数据记录的最小值,则该数值部分距离为:
S123:混合距离
通过把数据记录X,Y的分类属性和数值属性的距离相加可得它们之间的距离,即:D(X,Y)=d(X,Y)c+d(X,Y)n;
S124:质心
设T是n维数据集D的一个等价类,ti是等价类T的一条记录,即ti∈T,(i=1,2,...,n),是记录ti的数值属性部分,是记录ti的分类属性部分,即:设to是数值属性的均值,tc是属性的泛化,则等价类T的质心为C(T)={to,tc}。
S13:数据发布方法
针对混合性数据表,阐述其距离和质心的计算方法,提出一种满足k匿名机制的聚类方法,然后对聚类后的数据添加噪声,实现差分隐私保护。聚类操作减小了查询函数的敏感性,进而可以通过添加较小的噪声达到同样的隐私保护效果,提高数据可用性;
S14:对混合数据表可行的聚类方法
在MDAV的基础上,采用所述的混合属性数据表距离和质心计算方法,提出一种对混合属性数据表可行的聚类匿名化方法CMD,根据k-匿名的定义可知,该方法同时满足k-匿名机制,
聚类算法CMD(D,k):
输入:D为有n≥2k条记录的原始数据集,k为聚类最小尺寸。
输出:满足k-匿名的聚类数据集D′。
步骤:
计算聚类中心,并计算距离该中心最远的纪录r和距r最远的纪录s,作为两个初始类中心;
分别计算距离r和s最近的k条记录,并将其进行归类,加入到数据集D′;
对剩下的m条记录,若m≥2k,则对剩下的数据记录重复步骤1、2;
若m∈[k,2k-1],则自成一类,加入到数据集D′;
否则,将剩下的m条记录,划分到距离格子最近的类中;
计算各类的类质心,并用其替换各类中的数据记录;
返回替换后的数据表D′;
返回的数据表D′满足k匿名机制,其中的每个组都至少拥有k条记录,对每组记录中的数值属性和分类属性,分别用均值和泛化值进行替换,降低了查询函数的敏感性;
S15:可执行差分隐私保护的聚类改造方法
差分隐私和聚类算法提供了不同的信息纰漏保护,利用聚类算法能降低差分隐私中需要引入的噪声,实现了查询函数的敏感性分化,同时差分隐私保护能够弥补聚类算法的不可抗力任意背景知识攻,两者的结合能够达到更好的隐私保护结果,并保留较好的数据可用性,
设M为聚类函数,f为查询函数,为了有效降低的敏感度,M应该满足对于数据集D和D′,其中,D为原始数据集,D′为对D修改一条记录后生成的数据集,其聚类中心基本稳定,那么就要求数据集D′聚类后产生的所有簇与原本相对应的簇两两之间只有一条记录不同,:聚类算法M为非敏感聚类的聚类函数才能执行差分隐私保护;
S16:非敏感聚类
假设数据集D,聚类函数M,D经M的聚类结果{C1,C2,...,Cn},D′为对D只进行修改一条记录得到的数据集,{C1′,C2′,...,Cn′}为D′经M的聚类结果,若聚类结果{C1,C2,...,Cn}和{C1′,C2′,...,Cn′}对应的簇中只有一个数据记录不同,称聚类算法M为非敏感聚类;
为了使聚类方法CMD满足非敏感聚类,执行差分隐私进行数据保护,需要改变其中的距离函数D为一个全序函数,针对混合型数据表,可通过如下方式构造满足全序关系的距离函数,
假设数据表D含有n维属性,其中P维分类属性,q维输指数型,X,Y为数据表D中的任意数据记录,Z为数据表D的聚类中心,通过定义5的距离公式计算距离Z最远的数据记录,记为Xb,并计算距离Xb最远的数据记录Xt,定义数据表D的边界为{Xb,Xt},则
式中,第i个组,为一个距离矩阵形式,是满足全序关系的距离函数;
其中,
将上述距离函数引入聚类算法CMD,构造满足非敏感聚类的聚类算法ICMD;
非敏感聚类算法ICMS(D,k)
输入:D为有n≥2k条记录的原始数据集,k为聚类最小尺寸,
输出:可执行差分隐私保护的聚类数据集D′,
步骤:
计算原始数据集的边界[Xb,Xt];
分别计算距离Xb和Xt最近的k条记录,并将其进行归类,加入到数据集D′;
对剩下的m条记录,若m≥2k,则对剩下的数据记录重复步骤2;
否则,将剩下的m条记录,划归到距离格子最近的类中;
计算各类的类质心,并用其替换各类中的数据记录;
返回替换后的数据表D′,D′为将D聚类分类之后,对每一个组的值改为这一组的均值;
距离计算采用的计算方法,则ICMD满足非敏感类算法定义,可对其结果执行差分隐私保护,对于查询函数fi,有由此可知,原始数据集经过聚类分组,实现了记录隐藏和查询敏感性由单条数据向组数据的分化;
S17:差分隐私保护数据发布方法
基于k匿名机制的聚类匿名不能够抵御背景知识攻击和同质攻击,为了进一步保护,在聚类的基础上对数据记录添加噪声,已达到差分隐私保护的目的,添加拉普拉斯噪声,实现一种对混合属性数据表实施噪声扰动的数据保护方法ICMD-DP,
差分隐私保护算法ICMD-DP
输入:D为有n≥2k条记录的原始数据集,ε为隐私保护预算;
输出:满足k-匿名的ε-差分隐私数据集Dε;
步骤:
对数据集D进行聚类处理ICMD(D,k),返回数据集D′;
查询函数fi返回数据集D′第i条记录的属性,函数Sε()为查询结果添加拉普拉斯噪声,则对于i∈(1,n),xi=Sε(fi(D′)),将xi加入数据集Dε;
返回数据集Dε;
每个查询函数的结果满足ε-差分隐私,又每条查询针对的记录不相交,则根据并行性原则可知,最终的数据集Dε满足ε-差分隐私;
对于聚集尺寸为k的数据集D,单个查询敏感度小于Δfi(D)/k,并且有n/k个相互独立的查询,因此若要满足经ICMD-DP差分隐私保护的数据查询敏感度小于原始数据集的查询敏感度,则需有即由上可知,虽然经聚类算法处理将造成信息丢失,但该部分损失可由敏感度降低带来的增益进行弥补。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010778159.1/1.html,转载请声明来源钻瓜专利网。