[发明专利]一种基于距离的无参数多维数据聚类方法在审
申请号: | 201710884448.8 | 申请日: | 2017-09-26 |
公开(公告)号: | CN107562948A | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 莫毓昌 | 申请(专利权)人: | 莫毓昌 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 321004 浙江省金*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 距离 参数 多维 数据 方法 | ||
【技术领域】
本发明涉及数据分析技术领域,具体涉及一种基于距离的无参数多维数据聚类方法。
【背景技术】
在对多维数据进行分析时,聚类是一种非常重要的分析技术。聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。
聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
聚类技术是把多维数据中特征相近的数据项归入同一类中。通常数据项之间的特征差别可以采用多维数据项x和y之间的距离Dx,y进行刻画:
其中L是多维数据的维数,yi和xi是多维数据项x和y的第i维度的值。
传统的基于距离的多维数据聚类方法需要设定一个阈值参数H,并约定同一类中的数据项之间的距离值不超过H。对于带参数的多维数据聚类方法,如何适当的选择阈值H提升了多维数据聚类的难度。
【发明内容】
本发明的目的在于针对现有技术的缺陷和不足,提供一种基于距离的无参数多维数据聚类方法,它通过对距离值和的迭代分析,克服了传统带参数的多维数据聚类方法如何适当的选择阈值H的问题,简化了多维数据聚类方法的难度。
本发明所述的一种基于距离的无参数多维数据聚类方法,它采用如下的方法步骤:
步骤一:从多维数据集D中随机选择一项数据x;
步骤二:计算步骤一中的数据x和多维数据集D中其他各个数据项的距离值;
步骤三:把所有步骤二中计算出的距离值按照数据项分别进行求和;计算各个距离值和与其均值之差的平方和;
步骤四:若步骤三中的平方和比前一次计算得到的平方和小,则按照距离值和从小到大对多维数据集D进行排序,并记录排序结果,然后选择距离值和最大的数据项作为下一次聚类的x,重新执行步骤二-步骤四;
步骤五:若该平方和不比前一次计算得到的平方和小,则停止排序工作;
步骤六:对获得的多个排序,按照距离值从大到小的顺序进行数据项删除操作,直至各个排序中的数据项没有重复。在删除过程中,若某一数据项只存在于一个排序,则跳过该数据项的删除操作。
采用上述结构后,本发明有益效果为:本发明所述的一种基于距离的无参数多维数据聚类方法,通过对距离值和的迭代分析,克服了传统带参数的多维数据聚类方法如何适当的选择阈值H的问题,简化了多维数据聚类方法的难度。
【具体实施方式】
下面将以具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
本具体实施方式所述的一种基于距离的无参数多维数据聚类方法,它采用如下的方法步骤:
步骤一:从多维数据集D中随机选择一项数据x;
步骤二:计算步骤一中的数据x和多维数据集D中其他各个数据项的距离值;
步骤三:把所有步骤二中计算出的距离值按照数据项分别进行求和;计算各个距离值和与其均值之差的平方和;
步骤四:若步骤三中的平方和比前一次计算得到的平方和小,则按照距离值和从小到大对多维数据集D进行排序,并记录排序结果,然后选择距离值和最大的数据项作为下一次聚类的x,重新执行步骤二-步骤四;
步骤五:若该平方和不比前一次计算得到的平方和小,则停止排序工作;
步骤六:对获得的多个排序,按照距离值从大到小的顺序进行数据项删除操作,直至各个排序中的数据项没有重复。在删除过程中,若某一数据项只存在于一个排序,则跳过该数据项的删除操作。
本发明以具体实施例来进行具体说明:
步骤一:从多维数据集D(表一)中随机选择第3项数据x=(2,2,2,4),计算x和D中其他数据项的距离;
表一:
然后按照数据项分别对已计算出的距离值进行求和。
因为是第一次计算距离值,所以距离值之和就是其本身;计算各个距离值和与其均值之差的平方和:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于莫毓昌,未经莫毓昌许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710884448.8/2.html,转载请声明来源钻瓜专利网。