[发明专利]区分准标识符属性的二次k‑匿名隐私保护算法有效
申请号: | 201610361877.2 | 申请日: | 2016-05-26 |
公开(公告)号: | CN106021541B | 公开(公告)日: | 2017-08-04 |
发明(设计)人: | 吴响;王换换;臧昊;俞啸 | 申请(专利权)人: | 徐州医科大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F21/62 |
代理公司: | 南京钟山专利代理有限公司32252 | 代理人: | 李小静 |
地址: | 221004 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 区分 标识符 属性 二次 匿名 隐私 保护 算法 | ||
技术领域
本发明涉及数据隐私保护技术领域,具体是一种区分准标识符属性的二次k-匿名隐私保护算法。
背景技术
信息技术的飞速发展,越来越多的数据为人们所共享使用,如何保护发布数据中的隐私信息不被攻击者恶意获取,同时又使数据接收者充分利用数据信息进行有效的探索和科学研究,日益成为一个重要的信息安全问题。k-匿名是一种有效的隐私数据保护方法,近年来受到广泛的关注。k-anonymity技术由Samarati和Sweeney于1998年提出,它要求在发布的数据中存在一定数量(k)不可区分的个体,使攻击者不能判别出隐私信息所属个体。
大量研究表明,Incognito算法能够高效地将大规模数据k-匿名化,全局重编码的k-匿名化算法会造成数值型变量的过度泛化,有较多的语义丢失。MDAV是基于划分的经典匿名聚类算法,该算法能够高效处理大规模数值型数据集的聚类问题。
研究者对k-匿名的研究工作主要集中在保护隐私信息的同时最大程度保留数据的可用性。目前,大部分数据匿名化方法都存在共同的缺陷:1)较适用于分类型数据(标称型和序数型),对数值型数据泛化往往丢失较多的数值语义;2)准标识符的属性数量剧增时,会出现所谓的“维度灾难/位数陷阱”。维数陷阱将导致很大的信息损失,使得发布数据表可用性变差。
发明内容
为了克服上述现有技术的缺点,本发明提供一种区分准标识符属性的二次k-匿名隐私保护算法,大大减少了单独使用匿名者算法造成的信息损失。
本发明是以如下技术方案实现的:一种区分准标识符属性的二次k-匿名隐私保护算法,
1)判断准标识符集中属性类型;
2)Sn=Incognito(T,CQI,k),Sn表示分类型属性已经进行泛化的数据集,T表示需要被泛化的数据集,CQI表示分类型准标识符集,k表示匿名约束条件;
3)空队列result,空节点node;
4)遍历Sn进入以下循环:
数据集
Dj是存放全泛化后的数据表;
读取Sn中一个节点插入到node;
根据node泛化数据表T得到T′;
遍历T′,进入以下循环:
使用Ti′存储T′中第i个等价类;
MDAV(T′i,NQI,k),T′i表示需要被聚类的数据集,NQI表示要进行聚类的数值型属性,k表示匿名约束条件;
Dj=Dj∪T′i;
计算信息损失,插入到result;
5)比较result中信息损失,得到信息损失最小的Dj;
6)T″=Dj,返回T″。
优选的,Incognito(T,CQI,k)分类型属性泛化的具体步骤如下:
1)形成单属性泛化候选节点表C1和边表E1;
2)使用一个空队列queue取出C1中所有根节点,对queue所有节点进行等价类计算;
3)判断是否满足k-匿名,如果节点满足,则对此点以及其所有的子节点进行标记,如果不满足,则将此点从C1中删除,并把其子节点插入队列queue中;
4)重复步骤3),直到把C1中所有不满足的节点删除,并使删减后的C1和E1形成新的表C2和E2;
5)重复步骤2)、3)、4)直到得到删减后的Cn;
6)Sn={Cn所有节点}
7)返回Sn。
优选的,MDAV(T′i,NQI,k)数值型属性泛化的具体步骤如下:
1)判断数据集中元组的个数是否大于2k-1,若大于,则继续步骤2),否则,返回数据集T′i,并找到其质心;
2)数据集T′i中按NQI找出距离最远的两元组r、s;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐州医科大学,未经徐州医科大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610361877.2/2.html,转载请声明来源钻瓜专利网。