[发明专利]数据匿名方法和系统有效
申请号: | 201010613260.8 | 申请日: | 2010-12-21 |
公开(公告)号: | CN102542209A | 公开(公告)日: | 2012-07-04 |
发明(设计)人: | 赵彧;李建强;刘博 | 申请(专利权)人: | 日电(中国)有限公司 |
主分类号: | G06F21/24 | 分类号: | G06F21/24 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 李晓冬 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 匿名 方法 系统 | ||
技术领域
本发明涉及计算机领域,更具体地涉及一种数据匿名方法和系统。
背景技术
在统计学中,微数据是指包含有个人信息的数据,例如存在于医院的医疗数据库中的包含有每个病人的年龄、性别、诊断结果等信息的数据。微数据在进行发布或者共享时,保护个人隐私是一个不得不考虑的问题。微数据通常包含以下三类属性:强标识属性(Explicit Identifier)、准标识属性(Quasi-Identifiers,QIs)、以及敏感属性(Sensitive Attribute)。对于一条数据记录,强标识属性的值可以用来清晰的标识出与该记录相关的个人,比如“姓名”、“身份证号”等就是强标识属性。对于一条数据记录,通常包含一组准标识属性,这些准标识属性的值组合起来可以模糊地标识出与该记录相关的个人,比如“年龄”、“性别”、“邮政编码”这几个准标识属性的值组合在一起可以模糊地标识出一个或多个与该记录相关的个人。另外,对于一条数据记录,敏感属性即与该记录相关的个人的敏感数据(例如,隐私信息),比如“疾病”、“工资”等等。在发布或者共享微数据时,通常需要保证个人与其敏感属性值之间的关联不能被泄露,即进行匿名处理,但同时又需要保证共享后的数据的使用价值不会被削弱。
最简单也是日常生活中最常用的匿名方式,是在发布数据时将强标识属性直接抹去。但这并不是一种安全的方法,因为准标识属性也可以潜在的标识出个人,特别是对于一些不常见的准标识属性值,个人被识别出来的概率将大大增加。针对这个问题,目前普遍被接受的处理方式是使用一种被称为k-匿名(k-anonymity)的技术,k-匿名技术的核心思想是:在强标识属性被隐去后,将各记录的准标识属性值进行处理(例如,泛化或者隐去),将整个微数据中的记录分成若干个记录组,每一组记录的准标识属性相同,并且每一组都包括至少k条记录。
但是,传统的k-匿名方法仅可以防止通过准标识属性来识别出个人及泄漏隐私,但不能防止通过敏感属性造成的隐私泄露。比如,虽然微数据满足了k-匿名,但在某一组记录中,所有记录的敏感属性值都相同,如果已知某个人的准标识属性值,则虽然不能判定该人具体对应组内的哪一条记录,但也能知道该人的敏感属性值,实际上隐私仍然被泄露了。下面给出了k-匿名的一个示例,其中表1是原数据表,表2是经过对准标识属性值进行泛化处理(即,将邮编泛化为476**和4790**,并将年龄泛化为2*、3*、以及大于40岁三个年龄段)后满足3-匿名(即k=3)的数据表。从表2可以看出,如果已知一个人的信息存在于记录1至9中,并且该人的邮编为476**、年龄为20多岁,则可以肯定地知道该人患有心脏病。因此,考虑敏感属性的匿名技术是当前匿名研究的一个热点方向。
表1
表2
目前主流的匿名技术为k-匿名及其扩展。k-匿名方法可以保证个人不会通过准标识属性被识别出来(identity disclosure),但仍然存在因为敏感属性值导致隐私被暴露(attribute disclosure)的可能。k-匿名的扩展方法多是在基于处理后的准标识属性值对微数据中的记录进行分组的同时,要求每组记录的敏感属性值的分布情况满足预定条件。
例如,现有技术中存在以下几种匿名方法:
期刊“ACM Transaction on Knowledge Discovery from Data”2007年第1期第1卷中的由A.Machanavajjhala、D.Kifer、J.Gehrke、以及M.Venkitasubramaniam所著的论文“privacy beyond k-anonymity”中提出了基于k-匿名的被称为l-diversity的改进匿名方法。具体地,为了使发布的数据不会因为敏感属性值而暴露隐私,该方法要求在k-匿名前提下,通过对准标识属性值进行处理将微数据中的记录分为多个组,并且每组(即,准标识属性值相同的一组)记录中至少有l个“不同”的敏感属性值。对于什么是l个“不同”的敏感属性值,可以选择多种定义方法,最简单、直接的定义方法即是有l个不同的数据值。对于表1中所示的示例,经过匿名处理后,下面的结果既满足3-匿名(即k=3)又满足2-diversity(多样性)(即l=2),即记录被分成了分别包括至少3条记录的多个组,并且每组记录中包括2个不同的敏感属性值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010613260.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置