[发明专利]满足节点差分隐私的度分布直方图发布方法有效
申请号: | 201910400478.6 | 申请日: | 2019-05-15 |
公开(公告)号: | CN110135180B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 钱晴;赵雷 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F21/60 | 分类号: | G06F21/60;G06T5/40 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 曹成俊 |
地址: | 215137 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种满足节点差分隐私的度分布直方图发布方法。本发明一种满足节点差分隐私的度分布直方图发布方法,包括:通过采用加边的顺序进行图映射。基于以上观察,提出基于边所对应节点的度数进行优先级排序,节点度数之和越小,则优先级越高。本发明的有益效果:本发明中的图映射优化方法可以保留更多的边信息,降低节点度的变化。同时提出一种新的直方图中桶划分策略以降低在直方图发布过程中添加的随机噪声对原始数据分布的影响。 | ||
搜索关键词: | 满足 节点 隐私 分布 直方图 发布 方法 | ||
【主权项】:
1.一种满足节点差分隐私的度分布直方图发布方法,其特征在于,包括:通过采用加边的顺序进行图映射。基于以上观察,提出基于边所对应节点的度数进行优先级排序,节点度数之和越小,则优先级越高。顺序加边映射方法Pθ。为了保证所提出的Pθ算法满足差分隐私条件,需要确保图映射操作的全局敏感度有确定上界。假设图G′和图G相比只增加一个节点v+,也就是说从图G′中移除v+及其相邻的边会得到图G,如果deg(v+)>θ,那么两个图G′和G截断之后是一样的。如果deg(v+)≤θ,那么图G′和G中除了v+之外,在截断之前和之后至多有θ个节点的度不同,导致G′θ和Gθ用中生成的度分布直方图之间的L1距离不大于2θ+1。可以证明对图进行Pθ映射操作的全局敏感度上界为2θ+1。直方图是数据库系统中常用的数据统计汇总的有效方式,通过采用一组不等高度的桶来有效显示统计信息,其中每个桶表示相应查询范围内的统计情况。对给定直方图进行范围查询时,为了保证数据的隐私不被泄漏,采用注入满足拉普拉斯机制的噪声来扰动这些计数查询的输出结果;直接发布经过添加拉普拉斯噪声的直方图会使得发布结果与原始分布之间具有比较大的误差。假设原始直方图为H={h1,h2,...hn},其中直方图的桶的频数hi是度为i的节点个数。划分策略B={B1,B2,...,Bk}中包含k个子集,该划分策略将原始直方图划分互斥的子集,每个子集Bi={li,ri,ci},其中
li和ri表示子的左右边界,ci是直方图区间内所有频数值的平均值。当所有划分的子集完全覆盖了域[1,n]且不重复时,直方图的划分是有效的。也就是说,对于所有的1≤i≤k,都有l1=1,rk=n且ri=li+1‑1。显然不同的划分策略会导致不同的值ci,所以会产生不同的近似误差。给定直方图频数序列H={h1,h2,...hn}和划分策略B={B1,B2,...,Bk},可以得到一个新的频数序列
将序列H和H*H*之间的误差记做Erroe(B,H)。在这里使用平方和误差(Sum of Squared Error,SSE)来衡量不同划分策略的优劣,每个划分子集Bi造成的误差为:
所以划分策略B对H的误差为:
进一步证明:
其中Δf为全局敏感度,k为当前划分的子集个数,n为原始直方图中桶的个数。在这里,本方法直接采用误差函数,即:
划分之后的直方图能够比较准确地响应范围计数查询,但是用均值代替原始频数值不可避免会产生近似误差。从发布直方图的总体误差来看,划分策略的优劣直接影响着近似误差和拉普拉斯误差之间的平衡。满足差分隐私的直方图的发布精度在很大程度上取决于直方图的结构,范围查询较大的查询结果的精度可能会比较小的范围查询结果的精度更高,因为前者降低了满足差分隐私所需的噪声量级。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910400478.6/,转载请声明来源钻瓜专利网。