[发明专利]一种基于双边集成的聚类方法在审
申请号: | 202010319386.8 | 申请日: | 2020-04-21 |
公开(公告)号: | CN111651651A | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 杨辉;朱建勇;彭晗;聂飞平 | 申请(专利权)人: | 华东交通大学 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06K9/62 |
代理公司: | 北京恒创益佳知识产权代理事务所(普通合伙) 11556 | 代理人: | 付金豹 |
地址: | 330013 江西省南昌市经*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双边 集成 方法 | ||
本发明公开了一种基于双边集成聚类方法,包括以下步骤:(1)通过对给定数据集运行多次k‑means算法产生多个基聚类结果,将所得的基聚类结果转化为指示矩阵,并将其作为新矩阵的特征(列),然后将样本和基聚类构建二部图;(2)对所构二部图进行多划分;(3)通过一个高效的交替优化算法优化变量,得到最终的聚类结果;本发明的方法能够充分利用样本、聚类之间的丰富信息,同时对样本和基聚类聚类,当算法收敛时能够直接得到最终的聚类结果。
技术领域
本发明涉及数据挖掘中的聚类领域,着重设计一种基于将样本和基聚类构建二部图,通过对样本和基聚类同时聚类直接得到最终的聚类结果的双边集成聚类方法。
背景技术
随着网络技术、数据存储和数据采集能力的快速发展,每天都会产生大量的数据,如何从这些大量的数据中提取出有价值的信息就变的极其不容易。在大数据时代聚类算法已经成为获取有用信息不可或缺的重要手段。无论是什么聚类算法都有其优点和缺 点,没有单一的聚类算法能够处理所有类型的数据结构和群集形状。对于一个给定的数 据集,如果是毫无先验知识的情况下,这就会很难选择哪种聚类算法来完成给定的聚类 目标。集成聚类方法的提出为数据的挖掘提供了一个更好途径,能够很好的克服聚类算 法中的一些不足。集成聚类主要是结合了集成学习的思想,首先运行聚类算法来获取多 个基聚类,然后通过一致性集成得到集成聚类结果。本文对集成聚类算法的原理和方法 进行了深入的研究。目前已有许多国内外学者提出了不同的集成聚类方法。大多数集成 聚类方法都是基于图划分的方法,但是几乎所有的基于图划分的集成聚类方法,集成聚 类得到的结果并不是最终聚类结果,还需要利用聚类算法来获得最终聚类结果,在整个 过程中会使得解由离散—连续—离散的转变。这就会使得最终得到的聚类结果与真实结 果有较大的偏差。
发明内容
为克服上述现有方法的不足,本发明提出了一种基于双边集成聚类方法,简称为CEBKM。
本发明的目的是,针对基于图划分的集成聚类方法,在构建图的过程中大部分方法 只考虑样本或者基聚类之间的信息,而忽略了样本与基聚类之间的潜在信息;同时集成聚类结果还需要对其运行传统的聚类算法得到最终的聚类结果,降低了最终的聚类结果准确率。提出基于双边集成聚类方法,能够充分的利用样本与基聚类之间的丰富信息, 而且能够直接得到最终的聚类结果。
本发明的技术方案是:
一种基于双边集成聚类方法,包括以下步骤:(1)通过对给定数据集运行多次 k-means算法产生多个基聚类结果,将所得的基聚类结果转化为指示矩阵,并将其作为 新矩阵的特征(列),然后将样本和基聚类构建二部图;(2)对所构二部图进行多划分; (3)通过一个高效的交替优化算法优化变量,得到最终的聚类结果。
所述的基于双边集成聚类方法,所述步骤(1)中,对于给定的数据集 X=[x1,x2,x3,x4,x5,x6]运行3次k-means算法,每次聚成3类;
分别将这3次的聚类结果h1=[1,1,2,1,2,3]Th2=[1,2,2,3,3,3]Th3=[1,1,3,2,2,3]T分别 转化为指示矩阵并将其作为新数据矩阵W的特征(列);
假设新的数据矩阵W∈Rn×d,通过对其构建邻接矩阵A:
所述的基于双边集成聚类方法,所述步骤(2)中,运用Ncut算法对所构图进行多划分;目标函数如下所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东交通大学,未经华东交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010319386.8/2.html,转载请声明来源钻瓜专利网。