[发明专利]基于分布式平台的BIRCH算法改进方法、装置及设备在审
申请号: | 201910608916.8 | 申请日: | 2019-07-08 |
公开(公告)号: | CN112200206A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 江绪宇 | 申请(专利权)人: | 浙江宇视科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/55 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 310051 浙江省杭州市滨江区西兴街道江陵路*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 平台 birch 算法 改进 方法 装置 设备 | ||
本发明实施例公开了一种基于分布式平台的BIRCH算法改进方法、装置及设备。其中方法包括:将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中;根据所述分区中待处理数据,并行建立聚类特征树;重复执行如下操作:对上一层聚类特征树进行分组,根据每组中至少两个上一层聚类特征树的代表性数据,生成每组的当前层聚类特征树,直至建立目的聚类特征树;根据所述目的聚类特征树中所述代表性数据的聚类结果,对各层聚类特征树中所述代表性数据所属聚类特征中其他数据的聚类结果进行同步处理。本发明实施例通过对数据进行多轮并列聚类分析,不仅能够显著提高数据分析效率,还能确保数据分析的准确度,提高了用户体验。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种基于分布式平台的BIRCH算法改进方法、装置及设备。
背景技术
随着互联网技术及计算机技术的发展,越来越多的数据被存储,以用于对数据进行挖掘再利用。实际应用中,存储的数据需要经过分析得到数据之间的联系,之后才能应用于实际业务场景中。例如,对拍摄的大量人脸图片数据进行人工标注之后,才能将标注后的人脸图片数据应用到业务分析场景中。然而,通过人工标注成本较高,耗费时间长。为此如何提高对存储数据分析的速度,成为目前要解决的问题之一。
相关技术中,由于聚类算法可替代人工操作将具有相似特征的数据进行自动分类,降低成本,因此通过借助聚类算法可实现对大数据量的数据进行分析处理。常见的聚类算法包括如下几种,具体参见表1所示:
表1:
其中,若通过借助利用层次方法的平衡迭代规约和聚类(Balanced IterativeReducing and Clustering Using Hierarchies,缩写:BIRCH)算法,对存储的数据进行聚类分析时,由于存储的数据量较大,那么在将所有存储的数据都插入到一棵聚类特征树时,则需要花费较长时间,导致数据聚类分析速度慢、效率低。
发明内容
本发明实施例提供一种基于分布式平台的BIRCH算法改进方法、装置及设备,实现了通过对数据进行多轮并列聚类分析,不仅能够显著提高数据分析效率,还能确保数据分析的准确度,提高了用户体验。
第一方面,本发明实施例提供了一种基于分布式平台的BIRCH算法改进方法,该方法包括:将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中;根据所述分区中待处理数据,并行建立聚类特征树;重复执行如下操作:对上一层聚类特征树进行分组,根据每组中至少两个上一层聚类特征树的代表性数据,生成每组的当前层聚类特征树,直至建立目的聚类特征树;根据所述目的聚类特征树中所述代表性数据的聚类结果,对各层聚类特征树中所述代表性数据所属聚类特征中其他数据的聚类结果进行同步处理。
第二方面,本发明实施例还提供了一种基于分布式平台的BIRCH算法改进装置,该装置包括:数据存储模块,用于将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中;第一建立模块,用于根据所述分区中待处理数据,并行建立聚类特征树;第二建立模块,用于重复执行如下操作:对上一层聚类特征树进行分组,根据每组中至少两个上一层聚类特征树的代表性数据,生成每组的当前层聚类特征树,直至建立目的聚类特征树;结果同步模块,用于根据所述目的聚类特征树中所述代表性数据的聚类结果,对各层聚类特征树中所述代表性数据所属聚类特征中其他数据的聚类结果进行同步处理。
第三方面,本发明实施例还提供了一种计算机设备,该计算机设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面实施例所述的基于分布式平台的BIRCH算法改进方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时以实现第一方面实施例所述的基于分布式平台的BIRCH算法改进方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江宇视科技有限公司,未经浙江宇视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910608916.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种辅助驻车的方法和系统
- 下一篇:一种视频生成方法、播放方法及相关设备