[发明专利]一种K匿名聚类隐私保护方法、系统、计算机设备、终端在审
申请号: | 202111123601.8 | 申请日: | 2021-09-24 |
公开(公告)号: | CN113742781A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 吴珺;朱嘉辉;王春枝;董佳明;周显敬;刘虎;李天意;朱天亮 | 申请(专利权)人: | 湖北工业大学;武汉卓尔信息科技有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 张晓博 |
地址: | 430068 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 匿名 隐私 保护 方法 系统 计算机 设备 终端 | ||
1.一种K匿名聚类隐私保护方法,其特征在于,所述K匿名聚类隐私保护方法包括:
使用主成分分析方法完成数据的降维且确定敏感属性、准标识符属性和标识属性;对降维后的数据使用灰度关联分析方法计算敏感属性与准标识符属性的关联度;根据敏感属性与准标识符关联度确定准标识符的泛化层次结构;使用手肘法确定数据集适合的聚类簇数量;根据阈值a判断对数据直接进行聚类操作还是将该数据集与其他数据值合并进行聚类;对数据集进行聚类处理;根据准标识属性的泛化结构对聚类的数据进行K匿名处理。
2.如权利要求1所述的K匿名聚类隐私保护方法,其特征在于,所述K匿名聚类隐私保护方法包括以下步骤:
步骤一,根据主成分分析方法对医疗数据集T进行降维;
步骤二,使用灰度关联分析方法确定准标识符与敏感属性的关联度;
步骤三,根据准标识符与敏感属性的关联度确定准标识符属性的泛化层次;
步骤四,根据所选择的标识符、准标识符和敏感属性,根据手肘法来确定数据的最佳簇的数量;
步骤五,根据最佳簇数量L,将L作为聚类簇数量进行数据集的聚类;
步骤六,给的a的大小,作为阈值进行K匿名,将数据集中已经符合K匿名的记录,列入K匿名表中,统计Tm表中记录的个数。
3.如权利要求2所述的K匿名聚类隐私保护方法,其特征在于,步骤一中,所述根据主成分分析方法对医疗数据集T进行降维,包括:
(1)可能存在的主成分标识表示为:
其中,p标识每组记录中属性的维度,c表示每组记录中属性的权重,Z表示主成分,q表示可能存在的主成分个数,每个主成分之间相互独立;Z1,Z2,…,Zn由不同的x1,x2,…,xp准标识符组成;
(2)根据负载值Cij在主成分集合中的大小,选择属性维度最小的主成分,在维度最小的主成分中选择合适的QI属性,确定标识符、准标识符和敏感属性。
4.如权利要求2所述的K匿名聚类隐私保护方法,其特征在于,步骤二中,所述使用灰度关联分析方法确定准标识符与敏感属性的关联度,包括:
(1)将敏感属性作为参考数列,表示为:
Y=Y(k)|1,2,...,n;
其中,Y为具体的敏感属性;
(2)确定与敏感属性关联度的作为比较数据,表示为:
Xi=Xi(k)|k=1,2,...,n,i=1,2,...,m;
其中,Xi(k)表示第i个比较数列中的第k个值,m表示QI属性的个数;
(3)不同数据的计量单位不同,用以下公式对数据进行归一化处理:
(4)归一化处理后计算准标识符属性与敏感属性的灰度关联系数,用以下公式确定灰度关联系数:
其中,|y(k)-xi(k)|是参考数列与第i个比较数列中对应的第k个数据之间的距离,max表示最大距离,min表示最小距离;ρ称为分辨系数,ρ的取值区间为(0,1);当ρ≤0.5463时,分辨力较高,取ρ=0.5;
(5)根据各个时刻的关联系数,确定关联度,用以下公式确定关联度:
其中,ri表示为关联度,当关联度越接近1,表明准标识符属性与敏感属性的关联越高,联系越强;
步骤三中,所述关联度越高数据的关联性越强,准标识符的泛化层次结构应该更加细致,对于关联度不高的准标识符,泛化层次结构相对模糊,即可确定准标识符泛化层次结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学;武汉卓尔信息科技有限公司,未经湖北工业大学;武汉卓尔信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111123601.8/1.html,转载请声明来源钻瓜专利网。