[发明专利]一种基于Spark分布式内存计算的空间K均值聚类方法在审

申请号：	201910862008.1	申请日：	2019-09-12
公开（公告）号：	CN110705606A	公开（公告）日：	2020-01-17
发明（设计）人：	郭宇达;朱欣焰;呙维;佘冰	申请（专利权）人：	武汉大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/906
代理公司：	42222 武汉科皓知识产权代理事务所(特殊普通合伙)	代理人：	罗飞
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于Spark分布式内存计算的空间K均值聚类方法，包括：根据集群中计算节点的数量，对所有输入数据进行分区，将所有数据均匀分布至各个计算节点上；对分区后的数据进行归一化处理；初始化聚类中心集合，并将集合广播至所有集群节点，分布式计算数据与聚类中心距离并通过轮盘法选择下一聚类中心，直到聚类中心集合大小超过预设值；对聚类中心集合进行一次本地聚类，将聚类中心集合大小固定至预设值；分布式计算所有数据与聚类中心间的最小距离，将该条数据划分为与最小距离对应的聚类类别，并针对所有类别进行Reduce计算，更新聚类中心；最后依据聚类中心对所有数据进行类别划分。本发明的方法可以提高计算效率和稳定性。
搜索关键词：	聚类中心集合分布式计算计算节点最小距离预设分区归一化处理集合广播集群节点计算效率聚类类别内存计算初始化集群聚类轮盘更新
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于Spark分布式内存计算的空间K均值聚类方法，其特征在于，包括：/n步骤S1：根据集群中计算节点的数量，对所有输入数据进行分区，将所有数据均匀分布至各个计算节点上；/n步骤S2：对分区后的数据进行归一化处理；/n步骤S3：采用分布式计算方式从归一化处理后的数据中，确定至少K个初始聚类中心，并在本地进行一次聚类分析，将初始聚类中心固定至K个；/n步骤S4：采用分布式计算方式并行计算所有数据与K个初始聚类中心的距离，其中，数据与K个初始聚类中心的距离包括数据的空间位置信息，并将数据划分至与该数据距离最小的初始聚类中心所对应的聚类类别，再对所有聚类类别通过Reduce计算，更新聚类中心；/n步骤S5：重复执行步骤S4直至迭代次数超过预设值或者聚类中心不再发生变化，得到更新后的聚类中心；/n步骤S6：将更新后的聚类中心作为最终聚类中心，对所有数据进行类别划分，将数据划分至与其距离最近的类别。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910862008.1/，转载请声明来源钻瓜专利网。

上一篇：特征数据库建立及动作识别方法、装置、系统及存储介质
下一篇：一种基于循环重标注自助法的行业多标签降噪方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Spark分布式内存计算的空间K均值聚类方法在审

专利文献下载