[发明专利]一种基于相邻点连接的数据聚类方法在审
申请号: | 201811395547.0 | 申请日: | 2018-11-22 |
公开(公告)号: | CN111209926A | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 王振洲 | 申请(专利权)人: | 山东理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 255000 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 相邻 连接 数据 方法 | ||
本发明公开了一种基于相邻点连接的数据聚类方法。通过数据变换将所有数据转换到一个正整数范围的网格内,将网格中每个转换数据近似的正整数对应的位置赋值为1,其他位置赋值为0,通过迭代形态学膨胀方法对赋值为1的位置的临近位置也赋值为1,将相邻点连接成为连通域,用连续整数对所有连通域进行自动标识,计算出单个数据点到每个连通域的距离,通过与其距离最近的连通域的标识整数标记该数据点,对于含有噪音的数据,设置距离阈值,如果某个数据点到所有连通域的距离都大于距离阈值,那么该数据点被标记为噪音,在所有的数据点被标记以后,再将它们转换回原来的区间范围内。实验结果表明本发明的聚类精度明显高于任何一种现有聚类算法。
技术领域
本发明涉及一种基于相邻点连接的数据聚类方法,特别是涉及一种通过相邻点的连接生成连通域,通过计算数据点与不同连通域之间的欧式距离,决定数据点的聚类。该方法可以应用到机器学习,数据挖掘,模式识别,图像分析以及生物信息等领域。
背景技术
信息技术的高速发展积累了大量的数据, 而这些数据后面隐藏着许多重要的信息, 为了对其进行更高层次的分析, 数据聚类是核心技术。为了发现数据中存在的各种关系和规则, 并且根据现有的数据预测未来的发展趋势,数据聚类分析至关重要。迄今为止,聚类分析方法在数据挖掘领域已取得了较好的应用效果。此外,聚类分析还成功地应用在了模式识别 、图像处理、计算机视觉、模糊控制等应用领域 ,并在这些领域中取得了长足的发展。 然而,聚类分析还有许多急待进一步解决的问题。(1), 量大且复杂的数据的聚类结果的精确性问题。(2),数据对象分布形状不规则时的聚类问题。(3),噪声数据的聚类问题。(4),对数据输入顺序的独立性 ,也就是对于任意的数据输入顺序产生相同的聚类结果。(5),对先验知识或参数的依赖型等问题。这些问题的存在使得我们研究更加有效的聚类方法迫在眉睫。
目前比较有名的聚类方法包括基于密度的聚类算法,K均值算法,模糊c均值算法,K中心点算法,谱聚类算法以及均值漂移聚类算法等。这些方法都有这个各自优点与不足。在列举的这些典型聚类算法中,只有基于密度的聚类算法可以对于分布形状不规则的数据进行鲁棒地聚类。然而,当类间密度大于类内密度时,基于密度的聚类算法容易陷入类内数据的聚类。并且基于密度的聚类算法容易把数据点错误地归类为噪音。K均值算法可以对高维数据进行聚类,然而它容易受到数据分布形状的影响。此外,K均值算法是一种近似算法,因此在某些数据的聚类精度比较时,K均值算法往往比不过其他算法。模糊c均值算法,K中心点算法以及均值漂移聚类算法都是借鉴了K均值算法的思想,并且融合了新的聚类标准,从而在某些数据问题上,取得了比K均值算法更加鲁棒的精度。然而这些算法和K均值算法一样都容易受到数据分布形状的影响。谱聚类算法是另一类广泛使用的聚类算法,比起K均值算法,谱聚类对数据分布的适应性更强,同时聚类的计算量也小很多,因为对于量大且复杂的数据,基于迭代的均值聚类算法将相当耗时。然而,谱聚类算法的聚类精度也容易受到数据分布形状的影响。
本发明利用相同类中相邻数据点之间距离比不同类中相邻数据点之间的距离更近这一共有特性,开发了一种可以对任意分布形状的数据进行鲁棒聚类的通用方法。首先,所有数据被转换到一个正数范围的网格内,并且近似为整数。对每个近似的整数在网格中对应的位置赋值为1,其他位置赋值为0。对被赋值为1的位置的临近位置都赋值为1,直到相同类中数据位置连接成为一个连通域。再用连续整数对所有连通域进行自动标识。计算出某个数据点到每个连通域的距离,该数据点被标记为与距离其最近的连通域的标识整数。在所有的数据点被标记以后,再将它们转换回原来的区间范围内。实验结果证明本发明的聚类精度远远高于其他聚类算法。
发明内容
本发明的目的是针对现有聚类算法的精度容易受到数据分布形状的影响,提供一种基于相邻点连接的数据聚类方法,该方法充分利用不同数据的共有特性,通过连接类内相邻数据点形成连通域,再通过数据点到不同连通域的欧式距离对数据点进行聚类。
为了实现上述发明的目的,本发明采用下述技术方案实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东理工大学,未经山东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811395547.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可调节角度的LED屏支架
- 下一篇:水泵运行时间控制系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置