[发明专利]一种基于Pufferfish框架的针对关联分类数据序列的隐私保护方法在审
申请号: | 201911148569.1 | 申请日: | 2019-11-21 |
公开(公告)号: | CN110968893A | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 习芷铖;桑应朋 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 王晓玲 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 pufferfish 框架 针对 关联 分类 数据 序列 隐私 保护 方法 | ||
1.一种基于Pufferfish框架的针对关联分类数据序列的隐私保护方法,其特征在于,首先引入Pufferfish框架制定严格的隐私保护定义,然后利用多维马尔可夫链模型准确描述数据之间的两种关联性,最后提出可实现的隐私保护机制添加合适的噪音保护隐私。
2.根据权利要求1所述的基于Pufferfish框架的针对关联分类数据序列的隐私保护方法,其特征在于,所述的Pufferfish框架包括三部分:Secret S:代表需要被保护的敏感信息合集,即用S来表示涉及个人隐私数据的一组隐私信息;Secret pair S_pairs:判别对的合集,代表了如何保护隐私信息,即需要保证攻击者无法区分其中的判别对si,sj;D代表可以生成数据集的所有可能概率分布的合集,代表了攻击者拥有的背景知识的多少,每一个θ∈D代表一种生成数据集的可能概率分布,在D中可以考虑数据之间关联性。
3.根据权利要求2所述的基于Pufferfish框架的针对关联分类数据序列的隐私保护方法,其特征在于,所述的Pufferfish框架定义为如下所示:
∈-Pufferfish(S,Spairs,D)Privacy:给定S,Spairs,D,以及隐私预算∈,对于X~θ,若隐私保护机制M满足下式则满足∈-Pufferfish(S,Spairs,D)Privacy:
式中,pX,M(M(X)=w|si,θ)和pX,M(M(X)=w|sj,θ)表示在已知概率分布θ,判别对分别为si和sj时,通过隐私保护机制M对数据进行处理之后,得到的查询结果为w的条件概率;
最终加噪之后的查询结果需满足上述隐私定义,∈代表保护隐私的程度,∈越小保护的隐私越多;并且需要根据具体数据定义pufferfish三部分-S,Spairs,D。
4.根据权利要求2所述的基于Pufferfish框架的针对关联分类数据序列的隐私保护方法,其特征在于,所述的利用多维马尔可夫链模型准确描述数据之间的两种关联性包括以下步骤:
假设数据集有s个序列,序列本身高度关联,且序列之间也相互依赖;用代表第k个序列再n时刻的状态概率分布,即第j个序列在时刻n+1的状态分布与这s个序列时刻n的状态分布都有关,与时刻n以前的状态无关,则多维马尔可夫链满足下面的关系:
其中,λjk≥0,1≤j,k≤s,P(jk)为列间转移概率矩阵,λjk为列间权重;
以上关系表明,第j个序列在时刻n+1时的状态概率分布依赖于转移概率矩阵和前一时刻状态乘积的加权平均,用矩阵形式可以写成:
通过定义参数初始概率分布y1,列间转移概率矩阵P(jk)以及列间权重λjk,可以定义盛产数据集的可能概率分布的集合D,同时利用马尔可夫链的稳态分布性质估计出最有可能的概率分布。
5.根据权利要求2所述的基于Pufferfish框架的针对关联分类数据序列的隐私保护方法,其特征在于,所述的可实现的隐私保护机制添加合适的噪音保护隐私包括以下步骤:
首先利用泥土移动距离EMD来衡量两个分布间的距离,EMD是表示两个分布之间最小的移动量,其定义如下:
式中,Γ(μ,ν)为μ,ν的联合概率分布;
在本发明的机制中,首先用多维马尔可夫链准确衡量变量之间的关联关系,得到可能的概率分布,接着用泥土移动距离EMD衡量两个条件概率分布P(F(X)|si,θ)和P(F(X)|sj,θ)间的距离,最后针对查询F的结果添加与Distance∞(P(F(X)|si,θ),P(F(X)|sj,θ))成比例的拉普拉斯噪声。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911148569.1/1.html,转载请声明来源钻瓜专利网。