[发明专利]隐私保护记录链接中的二次分块方法在审

专利信息
申请号: 201811101295.6 申请日: 2018-09-20
公开(公告)号: CN109308423A 公开(公告)日: 2019-02-05
发明(设计)人: 申德荣;彤丹妮;聂铁铮;寇月;于戈 申请(专利权)人: 东北大学
主分类号: G06F21/62 分类号: G06F21/62
代理公司: 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 代理人: 张志伟
地址: 110169 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种隐私保护记录链接中的二次分块方法,属于数据集成和数据隐私领域,具体是各数据源对其记录进行Bloom Filter编码,接着,进行以下两个步骤,(1)LSH结合后缀的二次分块方法,并引入分块分散度调节两次分块。(2)基于滑动窗口的多方分块合并,提高链接的容错率。采用本发明的PPRL分块方法,具有LSH方法查全率高和可以对大型数据集快速划分的特点,同时有效地提高了查准率。
搜索关键词: 分块 链接 隐私保护 记录 大型数据集 滑动窗口 数据集成 数据隐私 查全率 查准率 分散度 容错率 数据源 有效地 合并 引入
【主权项】:
1.一种隐私保护记录链接中的二次分块方法,其特征在于:包括以下步骤:步骤1.局部敏感哈希LSH结合后缀的二次分块方法;在局部敏感哈希LSH分块的基础上进行后缀分块,根据局部敏感哈希LSH分块后的分块分散度设定后缀分块的后缀长度,使二次分块在保证PPRL高查全率的前提下提高查准率;步骤1‑1.Bloom Filter编码;从n个数据方共同拥有的属性中选取出分块属性,各数据方用相同的函数各自对其分块属性值字符串的二元组进行Bloom Filter映射生成bf,如Pete包含二元组_P,Pe,et,te,e_;步骤1‑2.LSH分块;n个数据方确定J组一致的hash函数Hj,j=1,…,J,每组Hj由K个哈希函数构成,k=1,…,K;bf[l]为bf的第l个位置的值;对于每组Hj,用其对记录的bf进行哈希映射,得到长度为K的向量即hash key,向量值相同的记录被分到同一LSH分块内;选择多组Hj是为了提高二次分块方法的容错率;步骤1‑3.基于LSH分块分散度的后缀长度确定;每个数据方在其大小大于X的分块中随机选取N个,远小于存在的分块数量,分别从这N个分块内随机选取q条记录,远小于分块内记录总数;在bf上随机选择m个LSH分块函数不曾作用的位置,连接每条记录bf这m个位置的值形成一个序列,统计一个分块内不同序列出现的概率;n个数据方应确定一致的x,N,q取值和m个位置;单块分散度如公式(1)所示:其中,j表示n·N个分块中的第j个,j=1,...,n·N;Pi为此分块内I种不同序列分别出现的概率,i=1,...,I;根据单块分散度计算整体分散度,据此来评估n个数据方综合的分块分散情况,则整体分块分散度如公式(2)所示:通过增加LSH中每组hash函数的个数,确定仅通过LSH分块就达到可接受的查准率时的Hs值为阈值θ;当LSH分块集群的Hs小于等于θ时,表明LSH方法已经将相似度低的记录划分到不同的分块内,无需进行后缀分块,后续分块合并步骤只需将各方LSH‑key相同的分块合并即可;若初步分块的Hs大于θ,则选取的最小后缀长度lmin如公式(3)所示:其中,Ht是对和需要链接的数据集质量相同的数据进行LSH分块后测试得到的整体分散度,lt是对应Ht的最佳最小后缀长度;步骤1‑4.后缀分块;对于每组通过Hj生成的LSH分块,分别利用x种不同长度(分别是lmin,lmin+1,...,lmin+x‑1)的后缀对每个LSH分块进行x次后缀分块,每个LSH分块内bf后缀值相同的记录被分到同一个分块内,则二次分块后,一条记录会出现在J·x个分块内;步骤1‑5.分块签名生成;二次分块后,一个分块用一个签名表示,其中id是分块编号,LSH‑key是LSH分块过程中对应的向量值,suffix是后缀分块过程中对应的后缀值;步骤2.基于滑动窗口的多方分块合并;额外参与方Pn+1利用滑动窗口对n个数据方各自的分块进行融合生成最终分块的过程,提高链接的容错率,进一步保证PPRL的高查全率;步骤2‑1.分块签名排序;Pn+1统计接收的n方分块签名,对LSH‑key相同且suffix长度相同的分块签名按suffix值二进制大小顺序排序形成签名列表;步骤2‑2.滑动窗口内生成最终分块;采用大小为w的滑动窗口对每个签名列表进行滑动,在同一窗口内若存在来自n个数据方的分块,此窗口内的所有分块才会被合并生成一个最终分块;最终分块内每n条来自不同数据方的记录组成一个候选记录组。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811101295.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top