[发明专利]一种基于相邻点连接的数据聚类方法在审

专利信息
申请号: 201811395547.0 申请日: 2018-11-22
公开(公告)号: CN111209926A 公开(公告)日: 2020-05-29
发明(设计)人: 王振洲 申请(专利权)人: 山东理工大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 255000 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 相邻 连接 数据 方法
【说明书】:

发明公开了一种基于相邻点连接的数据聚类方法。通过数据变换将所有数据转换到一个正整数范围的网格内,将网格中每个转换数据近似的正整数对应的位置赋值为1,其他位置赋值为0,通过迭代形态学膨胀方法对赋值为1的位置的临近位置也赋值为1,将相邻点连接成为连通域,用连续整数对所有连通域进行自动标识,计算出单个数据点到每个连通域的距离,通过与其距离最近的连通域的标识整数标记该数据点,对于含有噪音的数据,设置距离阈值,如果某个数据点到所有连通域的距离都大于距离阈值,那么该数据点被标记为噪音,在所有的数据点被标记以后,再将它们转换回原来的区间范围内。实验结果表明本发明的聚类精度明显高于任何一种现有聚类算法。

技术领域

本发明涉及一种基于相邻点连接的数据聚类方法,特别是涉及一种通过相邻点的连接生成连通域,通过计算数据点与不同连通域之间的欧式距离,决定数据点的聚类。该方法可以应用到机器学习,数据挖掘,模式识别,图像分析以及生物信息等领域。

背景技术

信息技术的高速发展积累了大量的数据, 而这些数据后面隐藏着许多重要的信息, 为了对其进行更高层次的分析, 数据聚类是核心技术。为了发现数据中存在的各种关系和规则, 并且根据现有的数据预测未来的发展趋势,数据聚类分析至关重要。迄今为止,聚类分析方法在数据挖掘领域已取得了较好的应用效果。此外,聚类分析还成功地应用在了模式识别 、图像处理、计算机视觉、模糊控制等应用领域 ,并在这些领域中取得了长足的发展。 然而,聚类分析还有许多急待进一步解决的问题。(1), 量大且复杂的数据的聚类结果的精确性问题。(2),数据对象分布形状不规则时的聚类问题。(3),噪声数据的聚类问题。(4),对数据输入顺序的独立性 ,也就是对于任意的数据输入顺序产生相同的聚类结果。(5),对先验知识或参数的依赖型等问题。这些问题的存在使得我们研究更加有效的聚类方法迫在眉睫。

目前比较有名的聚类方法包括基于密度的聚类算法,K均值算法,模糊c均值算法,K中心点算法,谱聚类算法以及均值漂移聚类算法等。这些方法都有这个各自优点与不足。在列举的这些典型聚类算法中,只有基于密度的聚类算法可以对于分布形状不规则的数据进行鲁棒地聚类。然而,当类间密度大于类内密度时,基于密度的聚类算法容易陷入类内数据的聚类。并且基于密度的聚类算法容易把数据点错误地归类为噪音。K均值算法可以对高维数据进行聚类,然而它容易受到数据分布形状的影响。此外,K均值算法是一种近似算法,因此在某些数据的聚类精度比较时,K均值算法往往比不过其他算法。模糊c均值算法,K中心点算法以及均值漂移聚类算法都是借鉴了K均值算法的思想,并且融合了新的聚类标准,从而在某些数据问题上,取得了比K均值算法更加鲁棒的精度。然而这些算法和K均值算法一样都容易受到数据分布形状的影响。谱聚类算法是另一类广泛使用的聚类算法,比起K均值算法,谱聚类对数据分布的适应性更强,同时聚类的计算量也小很多,因为对于量大且复杂的数据,基于迭代的均值聚类算法将相当耗时。然而,谱聚类算法的聚类精度也容易受到数据分布形状的影响。

本发明利用相同类中相邻数据点之间距离比不同类中相邻数据点之间的距离更近这一共有特性,开发了一种可以对任意分布形状的数据进行鲁棒聚类的通用方法。首先,所有数据被转换到一个正数范围的网格内,并且近似为整数。对每个近似的整数在网格中对应的位置赋值为1,其他位置赋值为0。对被赋值为1的位置的临近位置都赋值为1,直到相同类中数据位置连接成为一个连通域。再用连续整数对所有连通域进行自动标识。计算出某个数据点到每个连通域的距离,该数据点被标记为与距离其最近的连通域的标识整数。在所有的数据点被标记以后,再将它们转换回原来的区间范围内。实验结果证明本发明的聚类精度远远高于其他聚类算法。

发明内容

本发明的目的是针对现有聚类算法的精度容易受到数据分布形状的影响,提供一种基于相邻点连接的数据聚类方法,该方法充分利用不同数据的共有特性,通过连接类内相邻数据点形成连通域,再通过数据点到不同连通域的欧式距离对数据点进行聚类。

为了实现上述发明的目的,本发明采用下述技术方案实现。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东理工大学,未经山东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811395547.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top