[发明专利]一种基于Spark分布式内存计算的空间K均值聚类方法在审
申请号: | 201910862008.1 | 申请日: | 2019-09-12 |
公开(公告)号: | CN110705606A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 郭宇达;朱欣焰;呙维;佘冰 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/906 |
代理公司: | 42222 武汉科皓知识产权代理事务所(特殊普通合伙) | 代理人: | 罗飞 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Spark分布式内存计算的空间K均值聚类方法,包括:根据集群中计算节点的数量,对所有输入数据进行分区,将所有数据均匀分布至各个计算节点上;对分区后的数据进行归一化处理;初始化聚类中心集合,并将集合广播至所有集群节点,分布式计算数据与聚类中心距离并通过轮盘法选择下一聚类中心,直到聚类中心集合大小超过预设值;对聚类中心集合进行一次本地聚类,将聚类中心集合大小固定至预设值;分布式计算所有数据与聚类中心间的最小距离,将该条数据划分为与最小距离对应的聚类类别,并针对所有类别进行Reduce计算,更新聚类中心;最后依据聚类中心对所有数据进行类别划分。本发明的方法可以提高计算效率和稳定性。 | ||
搜索关键词: | 聚类中心 集合 分布式计算 计算节点 最小距离 预设 分区 归一化处理 集合广播 集群节点 计算效率 聚类类别 内存计算 初始化 集群 聚类 轮盘 更新 | ||
【主权项】:
1.一种基于Spark分布式内存计算的空间K均值聚类方法,其特征在于,包括:/n步骤S1:根据集群中计算节点的数量,对所有输入数据进行分区,将所有数据均匀分布至各个计算节点上;/n步骤S2:对分区后的数据进行归一化处理;/n步骤S3:采用分布式计算方式从归一化处理后的数据中,确定至少K个初始聚类中心,并在本地进行一次聚类分析,将初始聚类中心固定至K个;/n步骤S4:采用分布式计算方式并行计算所有数据与K个初始聚类中心的距离,其中,数据与K个初始聚类中心的距离包括数据的空间位置信息,并将数据划分至与该数据距离最小的初始聚类中心所对应的聚类类别,再对所有聚类类别通过Reduce计算,更新聚类中心;/n步骤S5:重复执行步骤S4直至迭代次数超过预设值或者聚类中心不再发生变化,得到更新后的聚类中心;/n步骤S6:将更新后的聚类中心作为最终聚类中心,对所有数据进行类别划分,将数据划分至与其距离最近的类别。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910862008.1/,转载请声明来源钻瓜专利网。