[发明专利]一种基于敏感信息度量的身份信息隐私保护方法有效
申请号: | 201710082886.2 | 申请日: | 2017-02-16 |
公开(公告)号: | CN106940777B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 曹宇 | 申请(专利权)人: | 湖南宸瀚信息科技有限责任公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 湖南格创知识产权代理事务所(普通合伙) 43263 | 代理人: | 张文 |
地址: | 410073 湖南省长沙市开福区*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 敏感 信息 度量 身份 隐私 保护 方法 | ||
1.一种基于敏感信息度量的身份信息隐私保护方法,其特征在于,其包括如下步骤:
S1,确定输入输出;
S2,定义身份重要度并计算出身份重要度;
S3,根据孤立引用和完全引用,优化身份重要度;
S4,计算出敏感信息披露矩阵、最小攻击集、信息披露概率;
S5,确定泛化函数,并对数据集泛化;
S6,建立避免背景知识攻击的隐私保护模型;
S7,描述(γ,η)-Risk匿名算法,输入原始数据集D,输出匿名数据集D′;
S8,引入置信区间,将攻击方的高概率推断攻击控制在指定的置信区间内,避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击;
所述步骤S1中确定输入输出的过程如下:
S11.首先记身份信息数据库为Did,应用程序数据库为Aid;
S12.定义身份信息引用:假设c是某一特定身份信息,A是某一特定应用,FA是当前应用环境下所有应用的集合;如果A引用了c,那么,存在一个从A到c的身份信息引用和一个从c到A的反向引用;
S13.定义身份信息引用矩阵:构造一个矩阵MID,每一列表示用户U的一个身份信息,每一行表示一个应用,元素值表示在应用Ai和身份信息c之间存在一个身份信息引用,即:
那么,可得用户U的身份信息引用矩阵MID:
S14.定义身份引用:假设a是一个用户在某些应用中的身份标识符,A是某一特定应用,FA是当前应用环境下所有应用的集合;如果A引用了a,那么,存在一个从A到a的身份引用,另外还存在一个从a到A的反向引用;
S15.定义身份引用矩阵:构造一个矩阵M′ID,矩阵的行和列均代表某一应用,矩阵元素值表示在应用Ai和Aj之间存在一个身份标识符引用,那么,可得用户U的身份标识符引用矩阵M′ID,其中身份标识符引用矩阵M′ID对角线元素恒为1;对身份信息重要性的度量等同于对包括身份标识符在内的每一个身份信息的度量,即与该身份信息存在引用关系的应用的度量为身份标识符引用矩阵M′ID,可由如下公式计算出:
其中,NA表示用户U的身份信息总数,NID表示用户U的应用总数;
所述步骤S2中定义身份重要度并计算出身份重要度的具体过程如下:
S21.定义身份重要度:假设A是一个应用,FA是A引用的所有标识符的集合,BA是所有与A有引用关系的应用的集合,CA是BA中所有应用所包含用户的身份标识符集合,ID为用户身份标识符,FA中的标识符是CA的一个子集,即ID=ID′,NA是集合FA中各个标识符的引用次数的集合,那么应用A的IIV值迭代定义为:
S22.IIV值计算过程中引入了常数q来表征不能被其他任何应用引用的应用的IIV值,常数q不为0;修正IIV计算公式为:
其中,u表示应用u,v表示应用v,Bu表示所有与u有引用关系的应用的集合,q为常数,表示IIV最小初始值,M是全网的应用数目;
S23.对身份信息引用矩阵MID作归一化处理,得到转移概率矩阵P:
S24.求MID的归一化:P=norm(M′ID)
S25.计算P的特征值D和特征向量V:[V,D]=eig(P);
S26.求最大特征值M为:M=find(abs(diag(D)))==max(abs(diag(D)));
S27.计算特征值最大的特征向量:EigenVector=V(:,M);
S28.归一化特征向量为:IIV=EigenVector./norm(EigenVector,1);
所述步骤S3中根据孤立引用和完全引用,优化身份重要度的具体过程如下:完全引用和孤立引用生成的转换矩阵P;且引入用户向量来计算IIV值,用户向量被所有应用引用;
所述步骤S4中计算出敏感信息披露矩阵、最小攻击集、信息披露概率的具体过程如下:
S41.敏感信息披露矩阵:对一个包含N个应用的应用域DAPP,应用APPi向第三方应用披露的用户敏感信息矩阵如下所示:
其中表示应用APPi是否向应用APPj披露了用户敏感信息,如果有,该值为1,否则,该值为0;敏感信息披露矩阵是身份信息引用矩阵的一个子集,敏感信息披露矩阵可有效反映用户面临的身份信息披露风险的来源和目的地;
S42.最小攻击集IAttack:用最小攻击集构建完整用户身份信息,其是实现用户身份伪造所需获取的身份披露信息的最小集合,定义为:IAttack={I1,...,IN};最小攻击集IAttack用于确定用户身份信息在应用环境中传播的广泛性;其中,最小攻击集元素越少,用户身份信息传播的越广泛,攻击方获取最小攻击集伪造用户身份的概率越高,身份泄漏的风险越大;反之,攻击方攻击成本越高,用户身份泄漏的风险越低;
S43.信息披露概率:即攻击方成功获取最小攻击集IAttack的概率;对于一个包含N个应用的应用域DAPP,令包含最小攻击集内元素的应用集合为攻击方攻击IAttack内身份信息Ii成功的概率为则信息披露概率p为:
所述步骤S5中确定泛化函数,并对数据集泛化的具体过程如下:
S51.待发布原始数据集合:包含所有用户原始身份和属性信息的集合,记作T;
S52.待发布敏感数据集合:待发布原始数据集合中关键用户身份和身份敏感信息数据的集合,记作D;
S53.待发布非敏感数据集合:待发布原始数据集合中非敏感数据集合,记作S;待发布原始数据集合T=D∪S;
S54.泛化函数:对给定的数据v,v的泛化函数Ψ(v)返回v的所有泛化值;采用DGH结构来实现泛化函数Ψ,其中Ψ(China)={China,EastAsia,Asia,*};对于元组t和t′,当t′i∈Ψ(ti)时,t′∈Ψ(t),其中i∈QID,QID是用户的准标识符集合;
S55.数据集泛化:给定敏感数据集D和数据集D′,当且仅当:|D|=|D′|且D′ij∈Ψ(Dij),i∈QID,0<j<N,N为用户属性个数;此时,D′是D的泛化数据集,其中元组d=D[.]j与元组d′=D′[.]j相互关联,记为
S55.非覆盖泛化:给定数据集D和D的泛化D′,D′是D的非覆盖泛化,当且仅当:对于D′中的任意两个元组d′1,d′2,d′1≠d′2,D中的任意一个元组d都不能同时满足d′1∈Ψ(d),d′2∈Ψ(d);非覆盖泛化实际上是指,对于数据集D中的任意一个元组只能在数据集D的匿名化集合D′中找到唯一对应的泛化元组;T′和T″都是T的非覆盖泛化,D″也是D的非覆盖泛化;
S56.等价泛化:数据集D′1、D′2分别为数据集D1、D2对应的非覆盖泛化,D′1和D′2是等价泛化,当:
(1)
(2)如果d′1∈Ψ(d2)或d′2∈Ψ(d1),则d′1=d′2;
S57.k-anonymity匿名:对数据集D的匿名数据集D′,D′为k-anonymity数据集,当且仅当对任意准标识符i∈QID,D′i至少出现k次;
所述步骤S6中建立避免背景知识攻击的隐私保护模型的具体过程如下:
S61.原子:对任意用户ui及其敏感属性值对应的原始数据集中的记录di,原子表示公式:原子将用户和用户的敏感属性关联起来;
S62.基本背景知识:基本背景知识是由原子组成的公式:∧iAi→∨iBj,其中Ai和Bj都是原子,i∈{1,...,M},j∈{1,...,N},M和N表示原子的数目;
S63.背景知识:背景知识K是由若干条基本背景知识组成,攻击方关于用户u的背景知识Ku定义为表示分类树TR中包含的父节点,l为用户准标识符集合中元素数量,m为用户敏感属性值集合中元素数量,S为用户敏感属性值集合,表示攻击者关于用户第i个准标识符的背景知识,表示攻击者关于用户第j个敏感属性值的背景知识;
S64.准标识符等价类:数据集D中的准标识符相似等价类GQID是对数据集D按照准标识符进行的一个划分,其中对N为数据集D划分得到的准标识符等价类的数目;原始数据集D的一个准标识符等价划分得到集合T和S,T和5都是D的准标识符等价类;
S65.准标识符属性映射:对数据集D的准标识符等价类划分准标识符属性映射pt定义为pt:G→G,该映射满足:
(1)pt(Gi)=Gj,Gi≠Gj∈G;
(2)pt(Gi)≠pt(Gj);
(3)pt(G)=G;
S66.(γ,η)-Risk匿名:给定待发布原始数据集D、等价泛化数据集D′及其准标识符等价类划分用户集合U,若G中所有准标识符等价类中记录均满足对d′u∈D,有:数据集D′是数据集D的(γ,η)-Risk匿名;
其中,是中所有敏感属性类别的数量,是中所拥有的不同敏感属性类别的集合,是该集合的基数,是中敏感属性的属性值为某一类别Cu的所有记录的条数,是中敏感属性的属性值属于某一类别Cu的不同敏感属性值集合;
所述步骤S7中描述(γ,η)-Risk匿名算法,输入原始数据集D,输出匿名数据集D′的具体过程如下:
S71.假定CountG=0,统计D中的敏感数据类别得到集合CS,根据CS将D中记录划分成M个敏感类别记录集合每个集合一个敏感类别;
S72.对每个准标识符等价类统计敏感值得到敏感值集合VS并根据VS将每个分为N个敏感值记录集合每个集合一个敏感值,从而D分为M*N个敏感值记录集合;
S73.对给定参数γ,计算
CountG=CountG+1;
集合Rγ=记录数最多的前γ个集合;
For i=1 to γ do
Rη=记录数最多的前η个集合;
For j=1 to η do
从cj中删除任意一条记录r;
S74.对γ个集合汇总归类
中剩余的唯一记录;
将r放入Rr集合中任一等价类中;
S75.将中准标识符值和敏感属性值记录插入匿名数据集D′:
For j=1 to CountG do
定义集合上的准标识符属性映射ptj;
将记录插入D′;
输出D′;
所述步骤S8中引入置信区间,将攻击方的高概率推断攻击控制在指定的置信区间内,避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击的具体过程如下:
S81.属性分布函数:给定用户集合U,属性集C={c1,...,cn},属性分布函数对给定属性值集合V={v1,...,vn}返回U中的一个用户,即:其中UV∈U并且vi∈Ψ(UV[ci]),i∈[1,n];
S82.置信(γ,η)-Risk匿名:给定敏感数据集D及其等价泛化数据集D′,D的属性分布函数F,置信度α,β∈[0,1],令事件Eγ表示事件Eη表示如果都有P(Eγ|F)≥α,P(Eη|F)≥β,P为概率;D′是D的置信度,即为(α,β)的(γ,η)-Risk匿名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南宸瀚信息科技有限责任公司,未经湖南宸瀚信息科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710082886.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种物资盘点装置
- 下一篇:一种便捷式晶片角度分选仪
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置