[发明专利]基于随机应答技术的通用数据发布隐私保护方法有效
申请号: | 201910558380.3 | 申请日: | 2019-06-26 |
公开(公告)号: | CN110309671B | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 周水庚;刘朝斌;陈世熹;关佶红 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F17/16 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 随机 应答 技术 通用 数据 发布 隐私 保护 方法 | ||
1.一种基于随机应答技术的通用数据发布隐私保护方法,其特征在于,支持单敏感属性和多敏感属性的数据发布,所述敏感属性包括布尔型属性、分类型属性和数值型属性;为每个属性单独设置隐私参数,其无偏估计结果的重构时间与查询维度即查询涉及的敏感属性数量呈线性相关,且能够实现无偏估计结果的误差最小化;具体步骤如下:
设原始数据集T拥有d个属性,A为T的属性集,第i个属性拥有ni个不同的属性值,计数查询表示对于每一个k,查询T中同时满足第ak个属性值的记录数量;计数查询涉及属性集A的任意非空属性子集;下面针对A中所有属性的计数查询情况即属性数量为d的情况;
随机应答技术对数据的扰动是通过一定的概率分布来实现的;记原始属性值x(1≤x≤n)扰动为y(1≤y≤m)的概率是pxy,则扰动矩阵P=(pij)n×m表示一个属性的属性值由n个扰动为m个的概率分布;对原始数据集T扰动后的数据集即为发布数据集,记为T′;
基于原始数据集T的计数统计查询,能够通过在扰动后的数据集T′中进行相应查询并对查询结果进行重构,得到一个实际查询结果即T中查询得到的结果的无偏估计,从而在保护个体数据隐私的同时,保留原始数据集的统计规律;
设向量x是基于原始数据集T的计数查询结果向量即需要估计的目标,其第k个元素xk为原始数据集T中的数量;向量y是基于扰动数据集T′的计数查询结果向量,其第k个元素yk为扰动数据集T′中的数量,E(·)代表求均值,P为扰动矩阵,则有:
xP=E(y)和E(yP-1)=x
因此,重构的计数结果向量x′=yP-1是向量x的无偏估计,通过扰动后的计数结果向量y与扰动矩阵P的逆矩阵P-1相乘得到;为表述方便,记R=P-1为与扰动矩阵P相对应的重构矩阵;
可见,求出重构矩阵R即可得出向量x的无偏估计;
对于数据集T中第i个属性,通过一个ni×mi的扰动矩阵Pi,独立扰动为mi个不同的属性值;因此,组合的扰动矩阵决定了记录t∈∏{1,2,...,ni}扰动为记录t′∈∏{1,2,...,mi}的概率,表示克罗内克积,而根据克罗内克积性质,是一个与P相对应的组合重构矩阵;
为便于将数据记录与向量、矩阵元素的下标序号对应起来,本发明定义f和f′两个函数,其中函数f将原始记录映射为扰动矩阵的列号,函数f′将扰动记录映射为扰动矩阵的行号;函数f和f′的定义模式相同,下面以f为例给出具体定义,即:f∶{0,1}d→{1...2d}
其中t∈{0,1}d
对于查询∧(t=q),向量x′的第f(q)个元素(即:x′f(q))就是对计数查询真实结果的无偏估计值;只需求解元素x′f(q);
通过求解每个数据记录的无偏估计结果,累加得到最终无偏估计结果,从而实现无偏估计结果的重构时间与查询维度呈线性相关;x′f(q)具体计算公式如下:
所述重构矩阵的计算方法如下:
当矩阵P为方阵且可逆时,易知R=P-1;
当矩阵P不是方阵时,即P=(pij)n×m,mn,鉴于点查询、区间或子集查询在无偏估计结果的计算方式是相同的,下面以点查询为例,给出重构矩阵R的计算方法;
对于查询t=q,计算重构矩阵R时,将估计误差最小化作为约束条件:
设原始数据集T中敏感属性取值是均匀分布的,则有:
的计算方法如下:
其中,δs表示一个指示变量,当谓语s为真时等于1,否则等于0;
固定q值不变,利用拉格朗日乘子法,将上述估计误差最小化的问题转化为对所有t′均有:
即
其中,λt,q(1≤t≤n)是n个拉格朗日乘子;
对应于不同数据扰动方法的扰动矩阵的计算方法如下:
(一)Retention Replacement扰动方法
设一个分类型敏感属性拥有n个不同的属性值{1,2,...,n};Retention Replacement扰动的具体方法为:以概率p保持原始值不变,以概率1-p将原始值替换为其他值,且替换为任一属性值的概率相同;则该扰动方法的扰动矩阵为:
P=(pij)n×n其中
(二)Flipping扰动方法
Flipping扰动方法为每一个记录t∈{1,2,...,n},建立一个位数组t′=t′[1]t′[2]...t′[n],其中t′[i]=1表示t=i,t′[i]=0表示t≠i;具体扰动方法为:以概率p保持t′[i]的原始值不变,以概1-p对t′[i]的原始值进行跳位;
(1)Flipping扰动单维重构方法,仅考虑位数组t′中的一位数据,具体方法为:引入虚拟输入v=δt=q和虚拟输出v′=t′[q],值不变概率p0=p1=p,无偏估计向量x′的第一个元素x′1为最终的无偏估计结果;
(2)Flipping扰动全维重构方法:对于一个查询t∈Q,建立一个虚拟输入v=δt∈Q和虚拟输出v′=(v′+,v′-),其中v′+=∑t∈Qt′[i],则扰动矩阵P为:
P=(pij)2×(|Q|+1)(n-|Q|+1)
其中:
pf(v),f(v′)表示虚拟输入v扰动为v′的概率,表示对于拥有i个比特的集合在扰动后有j个比特产生跳位的概率。
2.根据权利要求1所述的基于随机应答技术的通用数据发布隐私保护方法,其特征在于:
对于布尔型属性数据,扰动方法与经典的Flipping扰动方法相同,即:以概率p保持数据记录t的原始值不变,以概率1-p对数据记录t的原始值进行跳位;
对于分类型属性数据,数据扰动方法包括Retention Replacement扰动方法和Flipping扰动方法两大类;
对于数值型属性数据,主要通过将其转换为布尔型属性或分类型属性数据后进行处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910558380.3/1.html,转载请声明来源钻瓜专利网。