[发明专利]基于Spark平台运行的P-CFSFDP密度聚类方法在审
申请号: | 201910159193.8 | 申请日: | 2019-03-04 |
公开(公告)号: | CN110008994A | 公开(公告)日: | 2019-07-12 |
发明(设计)人: | 陶乾;龚政;王振宇;蒋道宁;陶哲瀚 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Spark平台运行的P‑CFSFDP密度聚类方法,基于快速搜索进行聚类并找出密度峰值(CFSFDP)算法思想,实现一个可以在Spark平台上运行的P‑CFSFDP密度聚类方法,同时改进现有方法的缺陷,在数据结构和自动选取中心点方面进行功能优化。该方法通过Spark并行处理,通过对输入数据进行密度和距离的定义,将一组(抽象或具体)的对象分组到多个类中,通过某种标准或规则使得同一类中的对象尽可能相似,不同类中的对象尽可能不相似。本发明基于Spark平台,通过计算输入数据的密度值和距离值进行密度聚类,提升聚类的计算效率、计算精度和准确性,有助于快速实现大数据聚类和分析。 | ||
搜索关键词: | 密度聚类 聚类 计算输入数据 并行处理 功能优化 计算效率 快速搜索 数据结构 算法思想 自动选取 大数据 中心点 抽象 分组 改进 分析 | ||
【主权项】:
1.一种基于Spark平台运行的P‑CFSFDP密度聚类方法,其特征在于,所述的密度聚类方法包括下列步骤:实验预处理,使用Spark的上下文读取源文件,产生聚类的初始集合S,使用文件读取函数map(S)对初始集合进行处理产生初始聚类集合RDD df,通过系统并行化函数CoordinateMatrix(df)将初始聚类集合RDD df转化为坐标矩阵,输入初始聚类集合RDD df,输出坐标矩阵corMatrix;计算算法关键参数dc,参数dc定义是使得每个数据点的平均邻居个数为总数的一定比例,对于每一个分片,通过函数DCPosition(N,L),输入限定系数N以及坐标矩阵长度L,输出截断距离DC;定义算法中关键参数密度ρ,通过密度函数cutOff(corMatrix,DC)或者密度函数gaussian(dc.value,DC),输入坐标矩阵corMatrix以及截断距离DC,输出密度ρ、离散密度数组cutOffdensity或者高斯核函数密度数组gaussiandensity;计算算法中关键参数距离δ,通过距离函数Distance(corMatrix,density),输入坐标矩阵corMatrix以及密度数组density,输出距离δ和离散距离数组distance;通过计算出的密度ρ和距离δ选取中心点,通过中心点选取函数parallelize(density,distance),输入密度数组density和距离数组distance,通过并行化计算,输出包含每个点λ值的数组lamuda;中心点选取完毕后,将剩余点分配至对应中心点,通过剩余点分配函数cluster(corMatrix,density,lamuda,M),输入坐标矩阵corMatrix、密度数组density、lamuda数组和中心点个数M,输出中心点数组C和分配点数组R。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910159193.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度神经网络的端到端图像识别方法
- 下一篇:图像识别方法及系统