[发明专利]一种列联表数据发布的隐私保护方法有效
申请号: | 201410457822.2 | 申请日: | 2014-09-10 |
公开(公告)号: | CN104216994B | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 丁晓锋;金海;欧洋伶 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F21/60 |
代理公司: | 华中科技大学专利中心42201 | 代理人: | 廖盈春 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 列联表 数据 发布 隐私 保护 方法 | ||
技术领域
本发明属于计算机数据隐私保护技术领域,更具体地,涉及一种列联表数据发布的隐私保护方法。
背景技术
数据发布的隐私保护技术是近年来数据挖掘领域的一项研究热点。随着大数据时代的到来,越来越多的数据正在被一些统计机构采集和分析。有时,这些机构会发布一些数据供第三方使用,而这些数据可能涵盖数据被采集者的一些敏感信息,例如某病人患有某种疾病等。因此,直接发布这些数据会造成数据被采集者的隐私泄露。为了保护数据被采集者的隐私,数据发布方必须采取隐私保护措施。
列联表(Contingency Table)指的是按两个或多个属性将数据分类时所列出的频数表,是一种典型的非交互式数据发布形式。例如,在发布数据的时候,按“准身份标识属性”与“敏感属性”将数据分类,排列为一个m×n的二维列联表,记作T。准身份标识属性指的是类似“性别”、“年龄”、“邮编”这种可以通过联接外部数据获取个体身份的属性,记作UQI={qv1,qv2,...,qvm},包含m个变量值。敏感属性指的包含个体隐私信息的属性,例如所患疾病等,记作Us={sv1,sv2,...,svn},包含n个变量值。二维列联表T中的分组T(a,i)表示准身份标识属性值为qva、敏感属性值为svi的样本个数。
ε-差分隐私(ε-Differential Privacy)是一种隐私安全模型,其假设一个足够强大的攻击者对于整个数据集有且仅有一个元素是未知的,并要求一个安全的算法应该保证无论一个用户是否出现在该数据集中,都不会给查询结果造成显著差异。参数ε限制了元素“在”与“不在”数据集中的可能性之间的差异程度。ε越小,差异性就应该越小,安全要求也越高。基于ε-差分隐私模型的算法都采用随机机制,让攻击者根据输出结果无法分辨某个目标人物是否出现在原数据集中。
给定一个隐私保护机制M和数据集D,如果对于任意数据集D'(D与D'最多相差一个元素),以及都有:
那么,M满足ε-差分隐私。
敏感度(Sensitivity)是差分隐私的一个重要概念。对于任意查询函数q,q的敏感度记作:
Δq=max||q(D)-q(D')||
实现差分隐私的方式主要分为两种,一种为拉普拉斯机制(Laplace Mechanism),基于这种机制的算法会将拉普拉斯随机数作为噪音添加到查询结果上。另一种为指数机制(Exponential Mechanism),是一种用于设计差分隐私算法的技术。一般来讲,基于指数机制的算法的主要目的是在于保证ε-差分隐私的同时,最大化一个输入和一个输出间的随机映射的可用性。
目前实现差分隐私的算法都是在给出特定的查询函数后,通过对查询结果变形,例如直接添加噪音,或通过可逆函数变形后添加噪音来实现。直接添加噪音的方法不能保证数据一致性,且精确度较低;可逆变形在线性转换上,算法速度是一个瓶颈。且这些方法灵活性不高,一旦查询函数或查询条件改变,算法需要重新设计。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供一种列联表数据发布的隐私保护方法,本发明的基本思想是将记录的敏感属性值随机替换,保证数据满足差分隐私,且支持任意原数据所支持的查询,并具有较高的精确度。
本发明提供一种列联表数据发布的隐私保护方法,包括:
步骤1确定列联表T的每个分组T(a,i)的替换基数Φ(a,i),包括以下子步骤:
(1-1)确定每个分组T(a,i)的初始替换基数Φ0(a,i),其中,1≤a≤m,1≤i≤n,m对应准身份标识属性的个数,n对应敏感属性的个数,m为大于或等于1的整数,n为大于或者等于1的整数;
(1-2)为每个初始替换基数Φ0(a,i)加上一个随机非负整数yi,得到每个分组T(a,i)的所述替换基数Φ(a,i);
步骤2对于每一个分组T(a,i),根据其所述替换基数Φ(a,i),取任意Φ(a,i)条记录,将其原有的敏感值随机替换为敏感属性集合Us中的任意敏感值,其中,所述敏感属性集合Us为包含个体隐私信息属性的集合;
步骤3重新计算每个分组T(a,i)的记录个数,得到新分组T*(a,i)并输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410457822.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置