[发明专利]一种基于隐私保护的数据索引方法有效
申请号: | 201410379668.1 | 申请日: | 2014-08-04 |
公开(公告)号: | CN104133903B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 丁晓锋;金海;喻青;徐慧 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心42201 | 代理人: | 廖盈春 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 隐私 保护 数据 索引 方法 | ||
1.一种基于隐私保护的数据索引方法,其特征在于,包括:
步骤1创建基于差分隐私保护的本地索引PR-tree,具体包括以下子步骤:
(1-1)本地数据采用R-tree索引;
(1-2)对所述R-tree索引重新进行划分,使得任意两个叶子节点的范围都不存在相互重叠的情形,且所有叶子节点索引的数据加起来正好是整个数据集;
(1-3)在每一叶子节点索引的数据上独立地添加噪音,创建满足差分隐私要求的本地索引PR-tree;
步骤2构建分布式全局索引PR-CAN,具体包括以下子步骤:
(2-1)采用索引选取算法,从每个本地索引PR-tree上选取部分PR-tree节点形成节点集,其中所述索引选取算法保证选取的节点产生最小的查询开销总和;
(2-2)将选取的每一个PR-tree节点映射到相应的CAN节点上;
所述PR-CAN和CAN节点中CAN均是指Content Addressable Network,即内容寻址网络。
2.如权利要求1所述的方法,其特征在于,还包括:
步骤3执行索引微调算法,调整所述步骤(2-1)形成的节点集以适应实时查询的具体需求,如果在实时查询中有些节点被访问的频率过高,就用其孩子节点替换所述节点进行数据发布;如果有些节点被访问的频率过低,就用其父亲节点替换所述节点进行数据发布。
3.如权利要求1或2所述的方法,其特征在于,所述步骤(1-3)添加的噪音服从参数为s(f)/ε的拉普拉斯分布,其中s(f)为敏感度,ε为隐私预算。
4.如权利要求1或2所述的方法,其特征在于,所述步骤(2-1)中,所述选取的节点产生的查询开销总和包含以下三个方面的查询开销:
(a)将单个查询q路由到每一个与待查范围相交的CAN节点上的开销是其中N是网络中组织的服务器个数,t是范围与所述查询q的待查范围有重叠的CAN服务器个数,d是数据维度;
(b)在查询过程中可能出现某个待查CAN节点的全局索引中,没有一个索引项与所述查询q的查询范围有重叠,记这种无效的过程开销为 其中SFR(Noi)表示CAN节点Noi中与查询范围不相交的所有全局索引项,m是CAN节点的个数;
(c)虽然某些候选节点的范围与所述查询q的查询范围有重叠,但也有可能查询不到任何满足条件的结果,记这种无效查询过程引发的开销为 其中SFT(Nsi)表示选取于Nsi本地索引的所有候选PR-tree节点集,Ns为存储服务器的个数,C为PR-tree节点的最大分支数,hj表示PR-tree节点nj所在本地索引PR-tree的高度,则可以看作在以所述PR-tree节点nj作为根节点的子树上做查询时所经过的总的节点数。
5.如权利要求1或2所述的方法,其特征在于,所述步骤(2-2)具体包括以下子步骤:
(2-2-1)判断所述步骤(2-1)形成的所述节点集是否为空,是则结束流程,否则执行步骤(2-2-2);
(2-2-2)对于节点集中的每一个PR-tree节点ni,计算其中心点ci和半径Ri;
(2-2-3)对于给定的阈值vthrd,如果Ri>vthrd,则所述PR-tree节点ni将被映射到所有与其范围有重叠的CAN节点上;如果Ri≤vthrd,则所述PR-tree 节点ni就会被映射到一个范围包含了所述中心点ci的CAN节点上;
(2-2-4)对于所述步骤(2-2-3)中每一个满足条件的CAN节点,将所述PR-tree节点ni作为一个索引项插入到其全局索引之中,再执行步骤(2-2-1)。
6.如权利要求1或2所述的方法,其特征在于,所述步骤(1-3)中所述本地索引PR-tree的查询处理具体包括以下步骤:
步骤A判断查询范围R是否包含根节点T的最小边界矩形,如果所述根节点T的所述最小边界矩形完全包含在所述查询范围R之中,则将所述根节点T索引的数据个数添加到查询结果之中,输出查询结果后流程结束,否则执行步骤B;
步骤B判断所述根节点T是否为叶子节点,如果所述根节点T不是叶子节点,判断所述根节点T的每一个分支E是否与所述查询范围R有重叠区域,如果有重叠区域,则对于每一个与所述查询范围R有重叠区域的孩子节点Ei,算法将递归执行,所述根节点T被赋值为Ei,所述查询范围R不变,然后执行所述步骤A;如果没有重叠区域,则流程结束;如果所述根节点T是叶子节点且所述最小边界矩形与所述查询范围R存在重叠区域Area(R∩T),则执行步骤C;
步骤C计算所述重叠区域Area(R∩T)大小与所述根节点T的所述最小边界矩形大小的比例然后将所述比例f乘以所述根节点T索引的数据个数后添加到查询结果中并输出查询结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410379668.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置