[发明专利]基于度优先的K-Anonymity匿名算法的数据处理方法有效
申请号: | 201010176282.2 | 申请日: | 2010-05-19 |
公开(公告)号: | CN101834872A | 公开(公告)日: | 2010-09-15 |
发明(设计)人: | 胡翔天;宫秀军;陈海亮;赵菲菲;刘新觅 | 申请(专利权)人: | 天津大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F21/00 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 优先 anonymity 匿名 算法 数据处理 方法 | ||
技术领域
本发明涉及数据挖掘领域,尤其是涉及一种利用K-Anonymity(K-匿名)算法对隐私数据进行处理的方法。
背景技术
隐私数据匿名化的常用处理手段源于统计数据库中的数据处理方法,主要是通过以发布数据中的属性值的信息损失为代价,换取通过这些属性值再标识某些个体的准确性,同时尽可能保证发布数据的可用性,在发布数据的准确性和隐私保护之间达到一种平衡。与传统的保证发布数据整体趋势而牺牲单个数据记录准确性的隐私保护方法相比,为发布数据提供更好的可用性。常用的两种隐私数据匿名化算法包括:
1.K-Anonymity(K-匿名算法):
K-匿名(K-Anonymity)模型是不同于传统的访问控制等基于目标的隐私保护技术,将一个典型的微数据发布模型(微数据定义为一条表达和描述个体信息的数据记录作为个体信息的载体)。这些个体信息包括个体的标识信息(如姓名、身份证号等)、敏感信息(如病史等)、以及一些非敏感信息(如性别)。每个个体信息都是以个体属性和相应的属性值匹配的方式作为微数据(记录)的某个分量。该算法要求首先对原始数据进行预处理以满足匿名要求,然后将处理的数据予以发布;并且不限制对已发布数据的访问,相反尽可能的保持数据的可统计性。因而需要在该算法采用数据泛化(泛化是对于数据的一个属性,用概括值代替原来的值,使其意义更为抽象)这一常用的数据预处理手段。
K匿名就是要求在一个集合中(这里是指广义集合,即允许包含相同元素,类似于包(Bag)或簇(Cluster)的概念)中只能以不大于1/k(k是一个常数)的概率确定任何一个元素,即要求任何一个元素在集合中至少存在k-1个相同的副本元素。
用形式化的语言表述K匿名的概念,一般是将发布数据表中的个体记录的属性分为标识符、准标识符、敏感属性三类。以下是相关定义:
标识符(Identifiers):标识符属性是指能够直接标识出个体身份的属性,如姓名、身份证号码、社会保险号码等属性,通过这些属性值能够直接确定具体的个体。
准标识符(Quasi-Indentifiers,QI):给定实体集合U、实体表T(A1,A2,…An),fc:U→T以及fg:T→U′。其中实体表T的准标识符QI为属性组(A1,A2,…Aj),其中且满足fg(fc(pi[QI]))=pi。换言之,同时存在于发布数据表和外部数据源表中,利用此两种数据表进行连接的推演来表示个人隐私信息的一组属性称为准标识符属性。准标识符属性Quasi-Identifiers也叫做类标识符属性。不同的发布数据表可以根据不同的情况划分不同的准标识符属性,一般情况下准标识符由专家选择,而非用户随便选取。一般情况下可以以年龄、教育程度、性别作为准标识符。
敏感属性(Sensitive-Attributes,SA),个人隐私属性。发布数据中,个体不希望其他用户知道的信息属性。比如说个人的工资水平、患者的就诊记录中的所患疾病。发布数据时,为了防止个人敏感信息的泄露,标识符必须被删除,发布的数据记录只保留准表示副属性和敏感属性,称为匿名化处理。
等价组:在准标识符上的投影完全相同的记录组成的等价组,即:等价组中所有的记录在准标识符上的属性值完全相同,其他的属性值可以不同。
K-匿名描述:给定数据表T(A1,A2,…An),QI是与T相关联的准标识符,当且仅当在T[QI]中出现的每个值序列至少在T[QI]中出现K次,则T满足K-匿名。T[QI]表示T表元组在QI上的投影。
现实生活中,将医疗、投票、求职等信息公开的同时又要保证隐藏相关患者、投票人、和求职人等的个体标识信息并确保这些公布的数据不能用来推到出这些标识信息时,K匿名就是非常好的可选模型。当数据发布到公共数据库,数据的拥有者不再继续控制数据的使用方式和范围时,在这种情况下为了不暴露数据主体的身份移出所有涉及到个体标识的数据项信息De-Identification(即去标识)就是一种常用的方法。
2.OLA(Optimal Lattice Anonymization)算法(最优泛化格匿名化算法)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010176282.2/2.html,转载请声明来源钻瓜专利网。