[发明专利]聚类化支持系统和方法以及支持该方法的装置有效
申请号: | 201380033471.6 | 申请日: | 2013-07-11 |
公开(公告)号: | CN104380282B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 金民成;尹度永;李埰炫;李俊燮 | 申请(专利权)人: | SK普兰尼特有限公司 |
主分类号: | G06F17/00 | 分类号: | G06F17/00 |
代理公司: | 北京三友知识产权代理有限公司11127 | 代理人: | 吕俊刚,刘久亮 |
地址: | 韩国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类化 支持系统 方法 以及 支持 装置 | ||
技术领域
本发明涉及聚类分析,更具体地,涉及用于支持K-均值聚类化以在分布式处理环境中处理大数据的聚类分析支持系统和方法,以及支持该聚类分析的装置。
背景技术
聚类分析,也就是说,聚类化是指对相似数据进行分组。数据是否相似随提前给定的相似性的定义而变化。当各个数据的值被表示为矢量时,主要用几何距离来确定相似性。用来确定相似性的几何距离的一个最具有代表性的示例是欧几里得距离(Euclidean distance)。同时,k-均值聚类化(k-means clustering)是用于将总共n个d维数据分组成k个组。例如,当二维输入数据存在时,k-均值聚类化表示向各个二维输入数据指派范围为从1到k的聚类索引的任务。
当使用这种k-均值聚类化时,k直接由用户确定,并且聚类化的结果可以依赖于k而显著变化。因此,在没有关于k值的先验信息或知识的情况下随机地确定该k值,因此要确定k值是非常困难的,并且k值的错误确定可能会导致不希望的结果。由于k-均值聚类化是迭代算法,所以大的n(表示数据的数量),或者数据的维度的高阶的d可能需要大量的执行时间。即使对于相同的k值,依赖于最初确定的中心(center)值,花费用来收敛的时间,即整个运行时间可以改变或者结果可以改变。这样,传统的k-均值聚类化的效率随k值输入而不同,并且因此其不容易一般化并且需要熟练的操作员控制,并且即使是熟练的操作员,不能连续提供恒定结果的可能性也很高。
发明内容
技术问题
本发明旨在提供一种能够以稳定的方式提供合适的聚类化效率的聚类分析支持系统和方法,以及支持该聚类分析的装置。
具体地,本发明旨在提供一种能够在通过利用适合于分布式环境的数据结构而使k-均值聚类化自动化的同时执行高效k-均值聚类化的聚类分析支持系统和方法。
技术方案
本发明的一个方面提供一种支持聚类分析的系统,该系统包括聚类分析服务装置以及分布式处理服务装置。该聚类分析服务装置可以被构造成请求分布式处理服务装置基于在预定范围内的k值和预设迭代频率执行k-均值聚类化直至满足预定义的收敛条件为止,并且如果从分布式处理服务装置计算出k值的中心值,则选择所述中心值中的最优中心值,并且通过关于将基于所选择的最优中心值指派的聚类索引应用于数据的索引计算,来控制最优k值的计算和应用。分布式处理服务装置可以被构造成在就聚类分析服务装置的请求下从聚类分析服务装置提供的k值和预设迭代频率执行k-均值聚类化,并且如果k值的中心值被计算出,则向聚类化分析服务装置提供所述中心值。
本发明的另一个方面提供一种用于支持聚类分析的聚类分析服务装置,该聚类分析服务装置包括装置存储单元、装置输入单元以及装置控制单元。该装置存储单元可以被构造成存储数据。该装置输入单元可以被构造成生成输入信号,该输入信号与针对所存储数据的聚类分析而提供的预定范围内的k值、收敛条件以及迭代频率中的至少一方有关。该装置控制单元可以被构造成控制使得基于k值和迭代频率执行k-均值聚类化并计算k值的中心值直至满足收敛条件为止,其中,每当数据被更新时执行所述k-均值聚类化。
装置存储单元可以存储根据先前的k-均值聚类计算出的先前k值。
装置控制单元可以包括数据分配单元、分析结果选择单元、分析索引应用单元以及最优值更新单元。该数据分配单元可以被构造成分配数据使得对所述数据进行分布式处理。分析结果选择单元可以被构造成如果k值的中心值被计算出,则选择所计算出的中心值中的最优中心值。分析索引应用单元可以被构造成执行关于被指派了聚类索引的数据的k值效率的索引计算,所述聚类索引是通过将具有所述最优中心值的选择的结果应用到所述数据而得到的。该最优值更新单元可以被构造成基于具有索引计算的最优结果的k值更新先前存储的k值。
装置控制单元可以被构造成多次同时自动执行针对多个k值的中心值的结果计算并且在每次计算具有不同的初始值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于SK普兰尼特有限公司,未经SK普兰尼特有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380033471.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种拼接牛肉检测系统和方法
- 下一篇:一种汽车空调的控制方法