[发明专利]一种基于大数据的聚类方法、装置及电子设备在审
申请号: | 201810680528.6 | 申请日: | 2018-06-27 |
公开(公告)号: | CN108985352A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 林皓;郑恒;蒙进财;李鹏 | 申请(专利权)人: | 江苏神州信源系统工程有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 数据点 预设 集群 装置及电子设备 密度参数 大数据 数据聚类 | ||
本发明提供了一种基于大数据的聚类方法、装置及电子设备,本发明中获取待聚类的多个数据点以及预设聚类数量,根据第一预设阈值、每个所述数据点与获取的其他每个所述数据点之间的距离,确定每个所述数据点的密度参数,根据每个所述数据点的密度参数,将多个所述数据点聚类成所述预设聚类数量的初始集群,根据多个所述数据点以及聚类得到的多个所述初始集群中包括的每个所述数据点,对多个所述数据点进行二次聚类,得到所述预设聚类数量的多个集群。通过本发明能够实现数据聚类。
本申请要求于2017年11月30日提交中国专利局、申请号为201711235174.6、发明名称为“一种基于大数据的聚类方法、装置及电子设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及数据聚类领域,更具体的说,涉及一种基于大数据的聚类方法、装置及电子设备。
背景技术
随着数据处理技术的不断发展,越来越多的领域需要对数据进行聚类,如图像和音视频压缩领域、径向基函数网络的系统建模与预处理领域等。其中,聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。
对数据进行聚类,进而能够对每个聚类的数据进行统一分析与处理,提高数据处理的效率,因此,亟需一种对数据进行聚类的方法。
发明内容
有鉴于此,本发明提供一种基于大数据的聚类方法、装置及电子设备,以解决现有技术中没有数据聚类的方法的问题。
为解决上述技术问题,本发明采用了如下技术方案:
一种基于大数据的聚类方法,包括:
获取待聚类的多个数据点以及预设聚类数量;
根据第一预设阈值、每个所述数据点与获取的其他每个所述数据点之间的距离,确定每个所述数据点的密度参数;
根据每个所述数据点的密度参数,将多个所述数据点聚类成所述预设聚类数量的初始集群;
根据多个所述数据点以及聚类得到的多个所述初始集群中包括的每个所述数据点,对多个所述数据点进行二次聚类,得到所述预设聚类数量的多个集群。
优选地,根据多个所述数据点以及聚类得到的多个所述初始集群中包括的每个所述数据点,对多个所述数据点进行二次聚类,得到所述预设聚类数量的多个集群,包括:
从所述多个数据点中随机选取出至少一个所述数据点;
将选取的至少一个所述数据点添加到离选取的所有的所述数据点距离之和最小的初始集群中;
根据每个初始集群中的每个所述数据点的权重值以及预设集群中心确定公式,确定出每个所述初始集群的集群中心点;
根据确定出的每个所述集群中心点,对多个所述数据点进行二次聚类,得到所述预设聚类数量的多个集群。
优选地,根据每个初始集群中的每个所述数据点的权重值以及预设集群中心确定公式,确定出每个所述初始集群的集群中心点,包括:
从每个所述初始集群中的多个所述数据点中随机选取一个数据点作为聚类中心点;其中,每个所述集群中除所述聚类中心点之外的其他每个所述数据点作为非聚类中心点;
根据每个所述初始集群中所述聚类中心点与相应的初始集群中包括的每个所述非聚类中心点的距离,确定每个所述初始集群中每个所述非聚类中心点的权重值;
根据每个所述初始集群中每个所述非聚类中心点的权重值以及预设集群中心确定公式,计算出每个所述集群中的聚类中心点对应的聚类值;
返回从每个所述初始集群中的多个所述数据点中随机选取一个数据点作为聚类中心点这一步骤,直到计算出每个所述初始集群中的每个所述数据点对应的聚类值为止;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏神州信源系统工程有限公司,未经江苏神州信源系统工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810680528.6/2.html,转载请声明来源钻瓜专利网。