[发明专利]基于Spark平台运行的P-CFSFDP密度聚类方法在审

申请号：	201910159193.8	申请日：	2019-03-04
公开（公告）号：	CN110008994A	公开（公告）日：	2019-07-12
发明（设计）人：	陶乾;龚政;王振宇;蒋道宁;陶哲瀚	申请（专利权）人：	华南理工大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	李斌
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于Spark平台运行的P‑CFSFDP密度聚类方法，基于快速搜索进行聚类并找出密度峰值(CFSFDP)算法思想，实现一个可以在Spark平台上运行的P‑CFSFDP密度聚类方法，同时改进现有方法的缺陷，在数据结构和自动选取中心点方面进行功能优化。该方法通过Spark并行处理，通过对输入数据进行密度和距离的定义，将一组(抽象或具体)的对象分组到多个类中，通过某种标准或规则使得同一类中的对象尽可能相似，不同类中的对象尽可能不相似。本发明基于Spark平台，通过计算输入数据的密度值和距离值进行密度聚类，提升聚类的计算效率、计算精度和准确性，有助于快速实现大数据聚类和分析。
搜索关键词：	密度聚类聚类计算输入数据并行处理功能优化计算效率快速搜索数据结构算法思想自动选取大数据中心点抽象分组改进分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于Spark平台运行的P‑CFSFDP密度聚类方法，其特征在于，所述的密度聚类方法包括下列步骤：实验预处理，使用Spark的上下文读取源文件，产生聚类的初始集合S，使用文件读取函数map(S)对初始集合进行处理产生初始聚类集合RDD df，通过系统并行化函数CoordinateMatrix(df)将初始聚类集合RDD df转化为坐标矩阵，输入初始聚类集合RDD df，输出坐标矩阵corMatrix；计算算法关键参数dc，参数dc定义是使得每个数据点的平均邻居个数为总数的一定比例，对于每一个分片，通过函数DCPosition(N,L)，输入限定系数N以及坐标矩阵长度L，输出截断距离DC；定义算法中关键参数密度ρ，通过密度函数cutOff(corMatrix,DC)或者密度函数gaussian(dc.value,DC)，输入坐标矩阵corMatrix以及截断距离DC，输出密度ρ、离散密度数组cutOffdensity或者高斯核函数密度数组gaussiandensity；计算算法中关键参数距离δ，通过距离函数Distance(corMatrix,density)，输入坐标矩阵corMatrix以及密度数组density，输出距离δ和离散距离数组distance；通过计算出的密度ρ和距离δ选取中心点，通过中心点选取函数parallelize(density,distance)，输入密度数组density和距离数组distance，通过并行化计算，输出包含每个点λ值的数组lamuda；中心点选取完毕后，将剩余点分配至对应中心点，通过剩余点分配函数cluster(corMatrix,density,lamuda,M)，输入坐标矩阵corMatrix、密度数组density、lamuda数组和中心点个数M，输出中心点数组C和分配点数组R。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910159193.8/，转载请声明来源钻瓜专利网。

上一篇：一种基于深度神经网络的端到端图像识别方法
下一篇：图像识别方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Spark平台运行的P-CFSFDP密度聚类方法在审

专利文献下载