[发明专利]一种基于差分隐私的精确直方图的发布方法在审
申请号: | 201811394814.2 | 申请日: | 2018-11-22 |
公开(公告)号: | CN109492047A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 张啸剑;付楠;孟小峰 | 申请(专利权)人: | 河南财经政法大学 |
主分类号: | G06F16/26 | 分类号: | G06F16/26;G06F16/28 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 赵芳 |
地址: | 450000 河南省郑州市金*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 直方图 分组 排序 原始直方图数据 隐私 直方图数据 噪声数据 发布 聚类 蒙特卡罗算法 马尔科夫链 近似误差 采样 噪声 申请 | ||
1.一种基于差分隐私的精确直方图的发布方法,其特征在于,包括:
获取原始直方图数据;
基于马尔科夫链的蒙特卡罗算法,对所述原始直方图数据进行排序,得到排序后的直方图数据;
对所述排序后的直方图数据进行贪心聚类分组,得到多个分组;
计算每个分组的均值;
为每个分组的均值添加噪声得到噪声数据;
发布与所述噪声数据对应的直方图。
2.根据权利要求1所述的方法,其特征在于,所述原始直方图数据为原始直方图桶计数序列。
3.根据权利要求2所述的方法,其特征在于,所述基于马尔科夫链的蒙特卡罗算法,对所述原始直方图数据进行排序,得到排序后的直方图数据,包括:
在所述原始直方图桶计数序列中随机选择一个桶计数作为第一桶计数;
计算得到所述第一桶计数被抽样的概率,根据所述概率抽样确定第二桶计数;
计算从第一桶计数转移到第二桶计数的接受概率,并计算所述接受概率与所述第一桶计数被抽样的概率的乘积值;
从均匀分布中抽取样本;
如果所述样本小于所述乘积值,则调换所述第一桶计数值和所述第二桶计数值;
重复上述步骤,直至所述原始直方图桶计数序列中每个桶计数都被随机选择过,将调换后的桶计数序列作为排序后的直方图数据。
4.根据权利要求3所述的方法,其特征在于,所述第一桶计数被抽样的概率为:根据指数机制计算得到的。
5.根据权利要求3所述的方法,其特征在于,所述对所述排序后的直方图数据进行贪心聚类分组,得到多个分组,包括:
将排序后的直方图数据中的每个桶计数分别组成一个分组,分别将每个分组作为当前分组执行如下步骤:
将所述排序后的直方图数据中的每个桶计数分别作为当前桶计数,计算第一误差和第二误差;
其中,所述第一误差为所述当前分组内的数据与所述当前桶计数合并带来的误差;
所述第二误差为所述当前分组内的数据与所述当前桶计数分开带来的误差;
如果所述第一误差小于所述第二误差,则将所述当前桶计数加入当前分组,否则,保持当前分组不变,并更新当前分组为所述当前桶计数所在的分组;
重复执行上述步骤,直至计算完每个桶计数,得到多个分组。
6.根据权利要求5所述的方法,其特征在于,所述计算第一误差和第二误差的计算公式为:
和,
其中,err1表示第一误差,err2表示第二误差,表示分组Ci的桶计数值的均值,2/|Ci|(ε2)2表示拉普拉斯误差,ε2为预设的隐私预算,j表示桶的个数,表示排序后的直方图中的第j个桶计数,Ci表示初始化第i个分组,n表示最大的桶个数,且j≤n。
7.根据权利要求1所述的方法,其特征在于,所述计算每个分组的均值,包括:
对应每个分组,获取相应分组内的桶计数值的总和,以及所述桶计数值的个数,将所述总和与所述个数的比值,确定为每个分组的均值。
8.根据权利要求7所述的方法,其特征在于,所述计算每个分组的均值的计算公式为:
其中,Hj表示分组Ci中的第j个桶计数值,Ci表示第i个分组。
9.根据权利要求1所述的方法,其特征在于,所述噪声为拉普拉斯噪声。
10.根据权利要求1所述的方法,其特征在于,所述发布与所述噪声数据对应的直方图,包括:
根据所述噪声数据构建最终发布的直方图,其中,所述最终发布的直方图的各个分组分别为所述噪声数据对应的分组,且,所述噪声数据为相应分组的桶计数值;
发布所述最终发布的直方图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南财经政法大学,未经河南财经政法大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811394814.2/1.html,转载请声明来源钻瓜专利网。