[发明专利]区分准标识符属性的二次k‑匿名隐私保护算法有效

申请号：	201610361877.2	申请日：	2016-05-26
公开（公告）号：	CN106021541B	公开（公告）日：	2017-08-04
发明（设计）人：	吴响;王换换;臧昊;俞啸	申请（专利权）人：	徐州医科大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F21/62
代理公司：	南京钟山专利代理有限公司32252	代理人：	李小静
地址：	221004 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	区分标识符属性二次匿名隐私保护算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据隐私保护技术领域，具体是一种区分准标识符属性的二次k-匿名隐私保护算法。

背景技术

信息技术的飞速发展，越来越多的数据为人们所共享使用，如何保护发布数据中的隐私信息不被攻击者恶意获取，同时又使数据接收者充分利用数据信息进行有效的探索和科学研究，日益成为一个重要的信息安全问题。k-匿名是一种有效的隐私数据保护方法，近年来受到广泛的关注。k-anonymity技术由Samarati和Sweeney于1998年提出，它要求在发布的数据中存在一定数量(k)不可区分的个体，使攻击者不能判别出隐私信息所属个体。

大量研究表明，Incognito算法能够高效地将大规模数据k-匿名化，全局重编码的k-匿名化算法会造成数值型变量的过度泛化，有较多的语义丢失。MDAV是基于划分的经典匿名聚类算法，该算法能够高效处理大规模数值型数据集的聚类问题。

研究者对k-匿名的研究工作主要集中在保护隐私信息的同时最大程度保留数据的可用性。目前，大部分数据匿名化方法都存在共同的缺陷：1)较适用于分类型数据(标称型和序数型)，对数值型数据泛化往往丢失较多的数值语义；2)准标识符的属性数量剧增时，会出现所谓的“维度灾难/位数陷阱”。维数陷阱将导致很大的信息损失，使得发布数据表可用性变差。

发明内容

为了克服上述现有技术的缺点，本发明提供一种区分准标识符属性的二次k-匿名隐私保护算法，大大减少了单独使用匿名者算法造成的信息损失。

本发明是以如下技术方案实现的：一种区分准标识符属性的二次k-匿名隐私保护算法,

1)判断准标识符集中属性类型；

2)S_n＝Incognito(T,CQI,k)，S_n表示分类型属性已经进行泛化的数据集，T表示需要被泛化的数据集，CQI表示分类型准标识符集，k表示匿名约束条件；

3)空队列result，空节点node；

4)遍历S_n进入以下循环：

数据集

D_j是存放全泛化后的数据表；

读取S_n中一个节点插入到node；

根据node泛化数据表T得到T′；

遍历T′,进入以下循环：