[发明专利]一种基于差分隐私的精确直方图的发布方法在审
申请号: | 201811394814.2 | 申请日: | 2018-11-22 |
公开(公告)号: | CN109492047A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 张啸剑;付楠;孟小峰 | 申请(专利权)人: | 河南财经政法大学 |
主分类号: | G06F16/26 | 分类号: | G06F16/26;G06F16/28 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 赵芳 |
地址: | 450000 河南省郑州市金*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 直方图 分组 排序 原始直方图数据 隐私 直方图数据 噪声数据 发布 聚类 蒙特卡罗算法 马尔科夫链 近似误差 采样 噪声 申请 | ||
本申请涉及一种基于差分隐私的精确直方图的发布方法,包括:获取原始直方图数据;基于马尔科夫链的蒙特卡罗算法,对所述原始直方图数据进行排序,得到排序后的直方图数据;对所述排序后的直方图数据进行贪心聚类分组,得到多个分组;计算每个分组的均值;为每个分组的均值添加噪声得到噪声数据;发布与所述噪声数据对应的直方图。通过将蒙特卡洛采样方法与贪心聚类分组方法结合,使近似误差与拉普拉斯误差之和达到最小,使得在差分隐私下的直方图发布更加的准确。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于差分隐私的精确直方图的发布方法。
背景技术
快速而又准确地获取数据分布的梗概是数据分析与查询的主要任务,直方图是近似估计数据分布的主要技术之一,该技术使用分箱技术近似描述数据分布信息,将数据集按照某种属性划分成不相交的桶,每个桶由频度或者计数表示其特征。直方图的发布通常用来支持聚集查询、范围计数查询以及数据挖掘等,然而,如果直接发布直方图而不给予隐私保护,桶的真实计数会泄露个人的敏感信息。
相关技术中,为了阻止直方图统计信息带来的隐私泄露,在发布之前,需要对其进行隐私保护处理。目前差分隐私已经成为一种新的隐私保护模型,基于该模型出现了多种直方图发布方法,其中,基于数据相关的分组方法是差分隐私下直方图发布主要技术,该技术利用组平均值近似估计每个原始计数,该技术误差大,精度低。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供一种基于差分隐私的精确直方图的发布方法。
本申请实施例提供一种基于差分隐私的精确直方图的发布方法,包括:
获取原始直方图数据;
基于马尔科夫链的蒙特卡罗算法,对所述原始直方图数据进行排序,得到排序后的直方图数据;
对所述排序后的直方图数据进行贪心聚类分组,得到多个分组;
计算每个分组的均值;
为每个分组的均值添加噪声得到噪声数据;
发布与所述噪声数据对应的直方图。
可选的,所述原始直方图数据为原始直方图桶计数序列。
可选的,所述基于马尔科夫链的蒙特卡罗算法,对所述原始直方图数据进行排序,得到排序后的直方图数据,包括:
在所述原始直方图桶计数序列中随机选择一个桶计数作为第一桶计数;
计算得到所述第一桶计数被抽样的概率,根据所述概率抽样确定第二桶计数;
计算从第一桶计数转移到第二桶计数的接受概率,并计算所述接受概率与所述第一桶计数被抽样的概率的乘积值;
从均匀分布中抽取样本;
如果所述样本小于所述乘积值,则调换所述第一桶计数值和所述第二桶计数值;
重复上述步骤,直至所述原始直方图桶计数序列中每个桶计数都被随机选择过,将调换后的桶计数序列作为排序后的直方图数据。
可选的,所述第一桶计数被抽样的概率为:根据指数机制计算得到的。
可选的,所述对所述排序后的直方图数据进行贪心聚类分组,得到多个分组,包括:
将所述排序后的直方图数据中的每个桶计数分别组成一个分组,分别将每个分组作为当前分组执行如下步骤:
将排序后的直方图数据中的每个桶计数分别作为当前桶计数,计算第一误差和第二误差;
其中,所述第一误差为所述当前分组内的数据与所述当前桶计数合并带来的误差;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南财经政法大学,未经河南财经政法大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811394814.2/2.html,转载请声明来源钻瓜专利网。