[发明专利]一种基于差分隐私保护的谱聚类方法在审
申请号: | 201810833306.3 | 申请日: | 2018-07-26 |
公开(公告)号: | CN109190661A | 公开(公告)日: | 2019-01-11 |
发明(设计)人: | 郑孝遥;汪祥舜;罗永龙;郭良敏;胡桂银 | 申请(专利权)人: | 安徽师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 芜湖安汇知识产权代理有限公司 34107 | 代理人: | 马荣 |
地址: | 241000 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 隐私保护 聚类 矩阵 相似矩阵 随机噪声 权重 拉普拉斯分布 邻接矩阵 特征矩阵 样本数据 归一化特征向量 预处理 样本相似性 聚类标签 聚类算法 特征向量 数据点 再利用 扰动 构建 算法 隐私 保证 | ||
本发明适用于隐私保护技术领域,提供了一种基于差分隐私保护的谱聚类方法,包括:对样本数据进行预处理;计算相似矩阵;基于k‑near值简化相似矩阵;将满足拉普拉斯分布的随机噪声添加到相似矩阵;基于随机噪声扰动后的相似矩阵构建邻接矩阵及度矩阵;基于邻接矩阵及度矩阵求出拉普拉斯矩阵;求拉普拉斯矩阵的前m大特征值及对应的特征向量;归一化特征向量,组成特征矩阵;利用k‑means聚类方法对特征矩阵进行聚类,得到聚类标签label。利用谱聚类算法先计算样本数据间的样本相似性作为数据点之间的权重值,再利用差分隐私算法,对权重值添加拉普拉斯分布的随机噪声,来干扰权重值达到隐私保护的目的,干扰后的数据不仅可以实现隐私保护还保证了聚类的有效性。
技术领域
本发明属于隐私保护技术领域,提供了一种基于差分隐私保护的谱聚类方法。
背景技术
近年来,随着互联网与信息技术的蓬勃发展,海量数据的产生可以为研究者们提供许多有效的信息资源,对这些海量数据进行挖掘分析可以得到非常有价值的信息,其中聚类分析是有效手段之一。但是在聚类的过程中也存在着隐私泄露的风险。
现如今关于聚类分析在隐私保护方面的应用越来越多,而且聚类作为数据挖掘和机器学习的主要技术之一被广大学者所研究,传统的聚类保护算法如k-means、DBScan、k-medoids动态聚类,传统的聚类算法存在隐私泄露及聚类效果不佳的问题。
发明内容
本发明实施例提供了一种基于差分隐私保护的谱聚类方法,旨在解决传统的聚类算法存在隐私泄露及聚类效果不佳的问题。
本发明是这样实现的,一种基于差分隐私保护的谱聚类方法,该方法包括如下步骤:
S1、对数据集中的样本数据进行预处理,预处理是指将各属性下的属性值除以所述属性下的最大属性值;
S2、通过高斯核函数的距离计算公式计算相似矩阵;
S3、基于给定的k-near值简化相似矩阵,即将相似矩阵中小于k-near值的元素值设为零;
S4、根据累计分布函数生成满足拉普拉斯分布的随机噪声,添加到相似矩阵中非零元素;
S5、基于随机噪声扰动后的相似矩阵来构建邻接矩阵S及度矩阵D;
S6、基于邻接矩阵S及度矩阵D求出拉普拉斯矩阵L;
S7、获取拉普拉斯矩阵的前m大特征值及对应的特征向量;
S8、归一化特征向量,将归一化后的特征向量组成特征矩阵;
S9、利用k-means聚类方法对特征矩阵进行聚类,得到对应的聚类标签label。
进一步的,所述k-means聚类方法中的k值为标准聚类标签的聚类种类值。
进一步的,在步骤S9之后还包括:
S10、评估步骤S9中所获得的聚类标签label的精准度Accuracy。
谱聚类的算法对于数据的实用性更强,对于凸型的空间数据和高纬度的数据不容易陷入局部最优解,因此利用谱聚类算法先计算样本数据间的样本相似性作为数据点之间的权重值,再利用差分隐私算法,对权重值添加拉普拉斯分布的随机噪声,来干扰权重值达到隐私保护的目的,干扰后的数据不仅可以实现隐私保护还保证了聚类的有效性。
附图说明
图1为本发明实施例提供的基于数据流的敏感数据挖掘方法流程图;
图2为本发明实施例提供的参数δ取值对聚类结果的影响图;
图3为本发明实施例提供的数据集liver运行的Accuracy结果比较图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽师范大学,未经安徽师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810833306.3/2.html,转载请声明来源钻瓜专利网。