[发明专利]一种基于差分隐私的数据发布方法有效
申请号: | 202010573117.4 | 申请日: | 2020-06-22 |
公开(公告)号: | CN111737744B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 陶陶;胡丽娟;王爱国;郑啸 | 申请(专利权)人: | 安徽工业大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
代理公司: | 安徽知问律师事务所 34134 | 代理人: | 平静 |
地址: | 243000 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 隐私 数据 发布 方法 | ||
1.一种基于差分隐私的数据发布方法,其特征在于,其步骤为:
步骤1、输入原始数据集D=(x1,x2,…xn),隐私保护预算ε,全局敏感度Δf;
步骤2、向原始数据集D中的每个数据添加拉普拉斯噪音,得到添加噪音后的序列D*={x1*,x2*,...,xn*};
步骤3、对步骤2所得序列D*进行滤波处理,如公式(4)所示:
其中,xi为经过噪音扰动的D*中的第i个数据,yi为该数据滤波后的结果;
对数据D*进行滤波操作后,记录直方图桶顺序信息,再对结果数据yi进行从小到大的随机快速排序;
步骤4、对排序后的D*根据SSE进行重构,选取SSE最小的分组,并用平均数描述分组的频数属性;具体过程为:
首先,计算D*中前i项分成1组的SSE(D*,1,i),1≤i≤n;将其记为T(i,1),计算方式如公式(5)所示:
上式中表示D*中第1个桶到第i个桶计数的均值;
当k>1的时候,根据动态规划的思想求得在k分组下前i项最小的SSE,状态转义公式如(6)所示:
n个桶的分组从1组,2组,…,k组,记录每个分组的T(n,k)选出使得T(n,k)最小的分组,并记录在该分组数下的最优划分,如公式(7)所示:
其中,n是原始直方图桶的个数,k是所有可能的分组聚类数量,1≤k≤n;
对于k值,通过以下三个式子直接给出:
1)平方根选择:
2)Sturges公式:k=ceil(1+log2n);
3)Rice规则:
此时只需要将上述三个k值代入式(7),然后进行T(n,k)的比较,选择使T(n,k)最小的k值,并记录式(7)每一步迭代的j的值,最终的分组情况与SSE便可以求出;
步骤5、将分组后所得的最优桶数据与只加入拉普拉斯噪声的相应的数据集D*作比较,选取误差值小的数据,发布最终的重构直方图。
2.根据权利要求1所述的一种基于差分隐私数据发布方法,其特征在于:步骤1中输入的原始数据为统计型数据,每个xi为单位区间的频数,隐私保护预算ε小于1,全局敏感度Δf取1。
3.根据权利要求2所述的一种基于差分隐私数据发布方法,其特征在于:向原始数据集D中的每个数据添加拉普拉斯噪音的过程为:
记位置参数为0、尺度参数为b的Laplace分布为Lap(b),那么其概率密度函数如公式(1)所示:
取随机变量α~U(0,1)满足均匀分布,将其带入到拉普拉斯累计分布函数的逆函数中,则可以得到满足条件的噪音值如公式(2)所示:
取均匀分布α~U(-0.5,0.5),将公式(2)合并为公式(3),如下所示:
F-1(x)=0-b*sign(α)*ln(1-2abs(α)) (3)
其中,sign函数用来获取参数的正负,abs函数用来获取参数的绝对值,只需通过计算机生成符合α~U(-0.5,0.5)的伪随机数并将其带入式(3)中就可以得到拉普拉斯的噪音误差,将该拉普拉斯噪音添加到D中就能得到加噪后的数据D*。
4.根据权利要求3所述的一种差分隐私数据发布方法,其特征在于:在进行优化分组,重构完成直方图后,需对排序分组后的数据按照步骤三排序前记录的顺序进行恢复,恢复了直方图数据的次序后,便可以发布最终的直方图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽工业大学,未经安徽工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010573117.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种预先点餐的管理方法、装置和系统
- 下一篇:减毒活甲病毒制剂的组合物和方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置