[发明专利]基于Spark平台运行的P-CFSFDP密度聚类方法在审

专利信息
申请号: 201910159193.8 申请日: 2019-03-04
公开(公告)号: CN110008994A 公开(公告)日: 2019-07-12
发明(设计)人: 陶乾;龚政;王振宇;蒋道宁;陶哲瀚 申请(专利权)人: 华南理工大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 李斌
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于Spark平台运行的P‑CFSFDP密度聚类方法,基于快速搜索进行聚类并找出密度峰值(CFSFDP)算法思想,实现一个可以在Spark平台上运行的P‑CFSFDP密度聚类方法,同时改进现有方法的缺陷,在数据结构和自动选取中心点方面进行功能优化。该方法通过Spark并行处理,通过对输入数据进行密度和距离的定义,将一组(抽象或具体)的对象分组到多个类中,通过某种标准或规则使得同一类中的对象尽可能相似,不同类中的对象尽可能不相似。本发明基于Spark平台,通过计算输入数据的密度值和距离值进行密度聚类,提升聚类的计算效率、计算精度和准确性,有助于快速实现大数据聚类和分析。
搜索关键词: 密度聚类 聚类 计算输入数据 并行处理 功能优化 计算效率 快速搜索 数据结构 算法思想 自动选取 大数据 中心点 抽象 分组 改进 分析
【主权项】:
1.一种基于Spark平台运行的P‑CFSFDP密度聚类方法,其特征在于,所述的密度聚类方法包括下列步骤:实验预处理,使用Spark的上下文读取源文件,产生聚类的初始集合S,使用文件读取函数map(S)对初始集合进行处理产生初始聚类集合RDD df,通过系统并行化函数CoordinateMatrix(df)将初始聚类集合RDD df转化为坐标矩阵,输入初始聚类集合RDD df,输出坐标矩阵corMatrix;计算算法关键参数dc,参数dc定义是使得每个数据点的平均邻居个数为总数的一定比例,对于每一个分片,通过函数DCPosition(N,L),输入限定系数N以及坐标矩阵长度L,输出截断距离DC;定义算法中关键参数密度ρ,通过密度函数cutOff(corMatrix,DC)或者密度函数gaussian(dc.value,DC),输入坐标矩阵corMatrix以及截断距离DC,输出密度ρ、离散密度数组cutOffdensity或者高斯核函数密度数组gaussiandensity;计算算法中关键参数距离δ,通过距离函数Distance(corMatrix,density),输入坐标矩阵corMatrix以及密度数组density,输出距离δ和离散距离数组distance;通过计算出的密度ρ和距离δ选取中心点,通过中心点选取函数parallelize(density,distance),输入密度数组density和距离数组distance,通过并行化计算,输出包含每个点λ值的数组lamuda;中心点选取完毕后,将剩余点分配至对应中心点,通过剩余点分配函数cluster(corMatrix,density,lamuda,M),输入坐标矩阵corMatrix、密度数组density、lamuda数组和中心点个数M,输出中心点数组C和分配点数组R。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910159193.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top