[发明专利]一种基于条件概率分布的隐私保护数据发布方法有效
申请号: | 201811265074.2 | 申请日: | 2018-10-29 |
公开(公告)号: | CN109543445B | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 周水庚;关佶红;刘朝斌 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 条件 概率 分布 隐私 保护 数据 发布 方法 | ||
本发明属于信息安全隐私保护技术领域,是一种基于条件概率分布的隐私保护数据发布方法。根据条件概率分布对攻击者的先验知识进行建模,让攻击者在不同事务中具有不同的先验知识;然后利用构建的模型和准标识符属性值,对每条记录的敏感属性值进行预测,并用预测值替换原始值后进行发布。发布的敏感属性预测值与原始值没有直接相关性,有效保护了用户数据隐私;预测的敏感属性值分布与真实的分布近似,有效控制了分布误差,确保其发布数据集比泛化及随机应答方法发布的数据集可用性更好。本发明能为医疗、金融、生信、交通等各个社会领域的数据发布提供隐私保护机制,在保护用户数据隐私的同时,为数据在科学研究和社会服务中的应用提供支撑。
技术领域
本发明属于信息安全隐私保护技术领域,具体涉及数据发布场景中隐私保护方法。
背景技术
隐私保护研究的目标就是寻求一些数据处理方法,实现既不妨碍第三方访问带有敏感信息的数据集,同时又避免隐私信息的泄露。举例来说,医院掌握有大量病患医疗数据,一方面,允许研究者对这些数据进行分析与挖掘,可以促进医疗与健康事业的发展;另一方面,在公开这些数据的同时,个人隐私(如病人所患疾病等)应当受到保护。简单地从数据集中删除个人身份信息,切断个体与敏感信息间的联系,远不足以保护数据隐私,因为如果附加一定的背景知识(如其他的数据源),攻击者可以通过数据集中能够近似确定用户身份信息的准标识符属性(Quasi-IdentifierAttribute),如邮编,年龄,性别等,与背景知识进行连接,经过推理获得目标对象的敏感属性(Sensitive Attribute)信息,即隐私信息。这种攻击方式就是链接攻击。
为解决上述问题,在数据发布前把原始数据转换成某种安全形式,是保护隐私的有效途径。输入扰动是进行数据转换的常用方法,其核心思想是通过对整个数据集进行匿名化处理后,发布一个数据集的匿名化版本来实现。匿名化处理删除或扰动了输入数据集中的个人隐私数据,使得攻击者无法找到关于个人的任何隐私信息。输入扰动主要包括泛化(Generalization)和随机应答(RandomizedResponse)两种技术。
1.泛化技术
泛化是发布隐私数据集的一种常用方法,其主要思想是将数据集中的准标识符属性值模糊化(如将上海模糊化为中国,将特定值13模糊化为区间[9,16]),并将数据集划分为不同的等价类(Equivalence Classes),每个等价类中数据记录的准标识属性值均相同,无法区分,以防止攻击者将这些数据与个人隐私信息建立联系。k-匿名方法是泛化技术的典型代表,其要求在准标识符属性上,发布数据集中的每条记录都至少与数据集中的其他k-1条记录不可区分。l-多样性和t-相近性方法作为k-匿名方法的改进与延伸,当数据集包含敏感属性时,被用来保护用户的敏感属性值隐私,让攻击者无法将特定的敏感属性值与某个目标主体建立联系。虽然泛化方法成功解决了隐私保护的许多问题,但在实际应用过程中还存在以下不足:
(1)为了达到隐私保护的目的,l-多样性和t-相近性方法对每个等价类中敏感属性值的分布进行了特定限制,约束了对数据空间划分的灵活性,进而影响数据的查询精度。同时,l-多样性和t-相近性方法均假定攻击者在所有事务中的先验知识都相同,忽略了攻击者所具备的公共常识等先验知识,从而容易导致隐私泄露;
(2)泛化后的数据集采用非标准的形式进行发布,让许多现有的数据挖掘工具无法对数据进行复杂分析;
(3)泛化方法的隐私保护分析往往局限于一次发布的情形。事实上,一个查询事务往往涉及多个的数据集,即使某一个发布的数据集没有泄露个人隐私,但是将多个发布的数据集进行连接组合,可能导致隐私泄露;
(4)许多泛化方法要求用户为隐私控制参数进行取值,这给用户提供了充分的灵活性,但同时也使用户陷入困境。数据发布者往往趋向于选择很强的隐私保护约束,最大限度地降低法律风险,导致数据效用(即:数据可用性)较差。
2.随机应答技术
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811265074.2/2.html,转载请声明来源钻瓜专利网。