[发明专利]基于Spark的快速寻找聚类中心的方法和系统在审
申请号: | 201710693112.3 | 申请日: | 2017-08-14 |
公开(公告)号: | CN109389140A | 公开(公告)日: | 2019-02-26 |
发明(设计)人: | 李学兵;庄福振;敖翔;何清 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类算法 聚类中心 并行 并行计算 处理数据 快速寻找 汇总服务器 计算机信息 串行计算 点距离 算法 内存 服务器 切割 分析 | ||
本发明涉及一种基于Spark的快速寻找聚类中心的方法,涉及计算机信息获取和处理技术。本发明实现了基于Spark的并行CFSFDP聚类算法,利用内存并行计算框架解决了CFSFDP聚类算法处理数据规模小、效率低的问题。基于Spark的并行CFSFDP聚类算法首先通过把两点距离计算分成完全独立的子部分,再将计算结果在汇总服务器上处理分析,然后继续将一系列计算任务切割成独立子任务,汇总到一台服务器上,最终并行计算得到聚类中心,在得到聚类中心后串行计算得到所有数据点的类别。本发明在处理数据中充分发挥了CFSFDP算法的优点,弥补一些常用并行聚类算法的不足。
技术领域
本发明涉及一种基于Spark的快速寻找聚类中心的方法和系统,涉及计算机信息获取和处理技术。
背景技术
本发明致力于解决大数据背景下高效解决聚类问题,基于Spark分布式平台实现CFSFDP(Clustering by fast search and find ofdensity peaks)算法的并行化,使得这个优秀的聚类算法可以应用于大数据环境下。
在无监督学习中,训练样本的标记信息是未知的,目标是通过无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。聚类在这类研究中扮演着重要角色,聚类是通过将数据划分为若干个不相关的簇来探索数据中固有的规律和分布结构,在数据划分过程中基于物以类聚的原则,尽可能将类似的数据分到同一类簇,将不同的数据组织成不同的类簇。聚类应用领域广泛,如图像处理、网络安全、模式识别、生物信息学、蛋白质分析和社交网络等。目前有多种聚类算法,大致可分为原型聚类、层次化聚类、划分式聚类、基于密度和网格的聚类算法和其他聚类算法。在数据驱动时代的背景下,将聚类算法并行化是聚类算法应用于大数据的有效途径。目前基于Spark并行化的聚类算法有K-means和混合高斯聚类。
K-means算法是目前应用最广的算法之一,对于数值属性的数据,他能很好的体现聚类在几何和统计学上的意义。K-means算法的基本思想是随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心.对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇.然后重新计算每个簇的平均值.这个过程不断重复,直到目标函数收敛.通常定义为公式(1)的目标函数,采用启发式方法使得目标函数值最小。
其中p对象空间中的一个数据数据对象,m为类Ci的均值,公式(1)在一定程度上刻画了类簇内样本围绕簇均值向量的紧密程度。E值越小则簇内样本相似度越高。
高斯混合模型(GaussianMixtureModel,简称GMM)是最成熟的聚类方法之一,基本思想是假设待聚类的数据集是从多个混合在一起的多元高斯分布,从而用极大似然估计的思想来聚类。GMM是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。通俗点讲,无论观测数据集如何分布以及呈现何种规律,都可以通过多个单一高斯模型的混合进行拟合。所以GMM模型就是通过由单一高斯分布混合成的混合高斯分布去拟合数据从而达到聚类的目的。单高斯分布基本定义是:若随机变量X服从一个数学期望为、方差为σ2的高斯分布,则记为N(μ,σ2)。数学期望μ指的是均值(算术平均值),σ为方标准差(方差开平方后得到标准差)。一维高斯分布的概率密度函数为:
多维高斯分布模型下的概率密度函数:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710693112.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种蝗虫计数方法及装置
- 下一篇:测量数据的处理方法和装置