[发明专利]一种基于相似性度量的边缘计算网络隐私保护方法及系统在审
申请号: | 201910517945.3 | 申请日: | 2019-06-14 |
公开(公告)号: | CN110287728A | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 周成成;林福宏;安凤平;邓乃夫;吴轲 | 申请(专利权)人: | 雷恩友力数据科技南京有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 210042 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据对象 相似性度量 边缘设备 计算网络 隐私保护 聚类 信息安全领域 分布式网络 聚类算法 敏感属性 用户隐私 分发 泄露 保证 | ||
本发明提供一种基于相似性度量的边缘计算网络隐私保护方法及系统,能够保证用户隐私不被泄露。所述方法包括:获取边缘设备收集到的数据对象;利用基于相似性度量的聚类算法对获取的数据对象进行聚类,其中,所述相似性由数据对象之间的差值与所述数据对象自身的取值确定;对聚类得到的簇中的敏感属性进行匿名化处理;将匿名化处理后的簇通过分布式网络分发给所述边缘设备。本发明涉及信息安全领域。
技术领域
本发明涉及信息安全领域,特别是指一种基于相似性度量的边缘计算网络隐私保护方法及系统。
背景技术
边缘计算作为一种基于互联网的计算方式,通过在数据源附近的网络边缘执行数据处理来优化云计算系统的方法,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。传统的云计算模式面临着大量的数据传输,这就意味着数据量的急剧增大,当数据量级达到一定的程度时,不可避免带来算法执行时间长、网络开销大等一系列问题,为此通过在数据源处或附近执行分析和知识生成来减少传感器和中央数据中心之间所需的通信带宽,优化适合边缘设备的轻量级聚类多维数据算法显得尤为重要。
在数据挖掘与机器学习中,聚类分析往往作为一项关键的研究方法,它可以是一个单独的工具,挖掘数据库中分布各类数据的一些深层次的信息,也可以当作其他挖掘算法的一个预处理步骤。当今,聚类分析算法存在巨大的挑战,即如何在多维数据集的环境下进行有效的、高效率的聚类分析。
在现有技术中,可以通过基于对象相似性的聚类算法对高维数据集(当数据对象的维度大于等于预设的维度阈值时,则称当前数据对象为高维数据对象,否则,称为低维数据对象)进行聚类,在衡量数据之间的相似程度方面,在低维空间中,效果比较好的度量方式是通过距离度量,然而,这项度量指标在高维的空间中却无法获得较为满意的性能。一旦将适用于低维空间内的基于距离的度量方式应用到高维空间数据集,难免会造成不可预料的后果,通常将这种现象叫做“维度灾难”效应。通过不断地研究发现,在高维空间数据集中造成算法分析效果下降的重要原因是高维空间中点分布较为稀疏,部分还存在噪音。
发明内容
本发明要解决的技术问题是提供一种基于相似性度量的边缘计算网络隐私保护方法及系统,以解决现有技术所存在的将基于距离的度量方式应用到高维空间数据集,会导致维度灾难的问题。
为解决上述技术问题,本发明实施例提供一种基于相似性度量的边缘计算网络隐私保护方法,包括:
获取边缘设备收集到的数据对象;
利用基于相似性度量的聚类算法对获取的数据对象进行聚类,其中,所述相似性由数据对象之间的差值与所述数据对象自身的取值确定;
对聚类得到的簇中的敏感属性进行匿名化处理;
将匿名化处理后的簇通过分布式网络分发给所述边缘设备。
进一步地,用于相似性度量的函数Lsim(X,Y)表示为:
其中,X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)表示n维空间中的两个数据对象,mi表示第i维上数据对象X和Y的平均值。
进一步地,所述利用基于相似性度量的聚类算法对获取的数据对象进行聚类包括:
S21,确定数据对象集中两两数据对象之间的相似度;
S22,将各个数据对象分别当作一个簇;
S23,从所有簇中获取相似度最大的两个簇,判断得到的相似度最大值是否大于等于预设的相似度阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于雷恩友力数据科技南京有限公司,未经雷恩友力数据科技南京有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910517945.3/2.html,转载请声明来源钻瓜专利网。