[发明专利]基于EMD度量的对偶正则化非负矩阵分解的聚类方法在审
申请号: | 202010536081.2 | 申请日: | 2020-06-12 |
公开(公告)号: | CN111753894A | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 舒振球;张云猛;翁宗慧;叶飞跃 | 申请(专利权)人: | 江苏理工学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 朱晓凯 |
地址: | 213011 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 emd 度量 对偶 正则 化非负 矩阵 分解 方法 | ||
本发明提供一种基于EMD度量的对偶正则化非负矩阵分解的聚类方法,所述方法包括以下步骤:步骤一:获取待聚类的样本数据;步骤二:针对待聚类样本构建其数据流形图的邻接矩阵和特征流形图的邻接矩阵;步骤三:通过数据流形图正则化项与特征流形图正则化项,得到基于EMD度量的对偶正则化非负矩阵分解的目标函数;步骤四:根据目标函数使用迭代加权的方法,设置迭代次数,对NMF中的系数矩阵与基矩阵进行迭代更新;步骤五:采用k‑means聚类算法对迭代更新后的数据样本进行聚类。利用几何结构信息量提高NMF的性能,采用EMD的度量方式更好地度量样本之间的距离。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于EMD度量的对偶正则化非负矩阵分解的聚类方法。
背景技术
近几年,高维数据在许多领域里出现,对其进行降维操作引起了人们的注意。非负矩阵分解(NMF)作为一种常用的降维方法,目标在于学习基于局部的特征表示,已经被广泛用于各种应用研究中。聚类是机器学习和数据挖掘的一个基本课题,目的是根据数据点的相似性将一组数据划分为若干组。非负矩阵因式分解(NMF)由于其对自然发生数据的心理和生理解释,在人类大脑中可能以部分为基础而受到广泛关注。虽然NMF具有良好的实际性能,但它的一个缺点是忽略了数据集的固有结构。一方面,样本可能在流形上,因此人们希望利用几何信息来提高NMF的性能。另一方面,由于特征之间可能相互关联,传统的L2距离不能很好地度量样本之间的距离。虽然有人提出了一些工作来解决这些问题,但很少有人把它们联系在一起。
发明内容
针对现有技术的不足,本发明提供了一种基于EMD度量的对偶正则化非负矩阵分解的聚类方法,通过利用数据流形和特征相关知识的新方法,并在NMF中加入了数据流形与特征流形的图正则化项,通过实验证明该方法能够提升聚类的效果。
本发明提供一种基于EMD度量的对偶正则化非负矩阵分解的聚类方法,所述方法包括以下步骤:
步骤一:获取待聚类的样本数据;
步骤二:针对待聚类样本构建其数据流形图的邻接矩阵和特征流形图的邻接矩阵;
步骤三:通过数据流形图正则化项与特征流形图正则化项,得到基于EMD度量的对偶正则化非负矩阵分解的目标函数;
步骤四:根据目标函数使用迭代加权的方法,设置迭代次数,对NMF中的系数矩阵与基矩阵进行迭代更新;
步骤五:采用k-means聚类算法对迭代更新后的数据样本进行聚类。
进一步改进在于:所述步骤三中建立的目标函数O的公式为
其中λ表示熵正则项系数,ξ,σ分别为特征流形空间近邻图正则项系数与数据流形空间近邻图正则项系数,第一项表示用EMD的度量方法来重建误差,第二项表示由最近邻图建立的特征空间的图正则项,第三项表示由最近邻图建立的数据空间的图正则项。
进一步改进在于:所述步骤四中的系数矩阵与基矩阵进行迭代更新,其中基矩阵U的更新规则为
系数矩阵V的更新规则为
本发明的有益效果是:通过利用数据流形和特征相关知识的新方法,并在NMF中加入了数据流形与特征流形的图正则化项,与传统的聚类方法相比,考虑到了数据本身的流形结构,利用几何结构信息量提高NMF的性能,采用EMD的度量方式更好地度量样本之间的距离。
附图说明
图1是本发明的方法流程示意图。
图2是本发明的物品检测实施例图。
图3是本发明的人脸检测实施例图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏理工学院,未经江苏理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010536081.2/2.html,转载请声明来源钻瓜专利网。