[发明专利]一种基于学习低秩表达的子空间聚类方法在审
申请号: | 202011369979.1 | 申请日: | 2020-11-30 |
公开(公告)号: | CN112488189A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 彭冲;陈程立诏;秦国峰;司建伟;魏计鹏 | 申请(专利权)人: | 青岛大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/16 |
代理公司: | 成都方圆聿联专利代理事务所(普通合伙) 51241 | 代理人: | 宋红宾 |
地址: | 266071 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 表达 空间 方法 | ||
本发明公开了一种基于学习低秩表达的子空间聚类方法,包括以下步骤:S1.提出模型:采用自我表达的方式构建相应的表达字典,对自我表达矩阵和误差拟合项同时使用核范数,并加入流形项,帮助模型提取数据间的非线性关系;S2.模型优化:采用ALM的方法交替迭代优化;S3.模型应用,根据输入的数据集获得相应的自我表达矩阵Z;S4.根据自我表达矩阵做谱聚类:将自我表达矩阵作为谱聚类输入的相似矩阵,通过谱聚类算法得到最终的聚类的簇的划分。本发明能够有效获取二维数据集中的结构信息,流形的加入使得模型更具普适性,减少子空间聚类中对于数据集的严苛要求,提高了聚类的准确率。
技术领域
本发明涉及机器学习与数据挖掘领域,特别是涉及一种基于学习低秩表达的子空间聚类方法。
背景技术
现有的子空间聚类方法,例如low-rank representation(LRR)和sparsesubspaceclustering(SSC),通过一些必要的特征工程处理,在绝大多数情况下,都可以获得一个不错的聚类效果。
但是由于所采用的拟合函数大多都为Frobenius范数,这就使得在做子空间聚类的时候,通常要把二维数据向量化;这样一来反而损失了数据间的结构化信息。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于学习低秩表达的子空间聚类方法,通过改变核范数将获得矩阵的低秩表达,并结合流形项的加入,获得相应的非线性关系;通过ALM优化方法解决了模型优化困难的技术难题。
本发明的目的是通过以下技术方案来实现的:
S1.提出模型;
S101.采用自我表达的方式构建相应的表达字典:
表达字典的具体形式为矩阵Z,其中,Xi指的是数据集X中的第i个样本;Xj指的是数据集X中的第j个样本;Zji指的是以Xj作为基底来表示样本Xi的表达系数;数据集X由待处理的二维图像组成,是数据样本的集合。
S102.对自我表达矩阵和误差拟合项同时使用核范数:
根据S101中矩阵的自我表达形式,确定误差拟合项为最小化每个样本的拟合误差中结构信息,从而最大化地保留数据结构信息。
考虑到低秩的Z具有清晰的类结构,同时对自我表达矩阵和误差拟合项采用核范数,保证矩阵Z的低秩结构,得到:
S103.在提出的最终模型上加入流形项,帮助模型提取数据间的非线性关系:
通过加入流形项Tr(ZLZT)从数据中学习到的拉普拉斯矩阵,获取数据间的相关性,从而学习到数据间的非线性关系。
根据数据集X完成拉普拉斯矩阵L的构造,对数据集X采用KNN算法,默认k=5,来构造邻接矩阵,邻接矩阵的权重我们采用heat kernel的形式,根据度矩阵和邻接矩阵来构造拉普拉斯矩阵;在使用heat kernel的方式求解数据间的权重即数据间的相似性时,实际上已经引入了数据间的非相似性关系,而最小化流形项可以帮助我们保证如果Xi和Xj在非线性数据空间中的相似性高,那么在新的表达式Zi和Zj中,即低维的线性的空间中的相似性同样高,数据的相似性在高维的非线性空间中和低维的线性空间中的表达是连续的;即低维的线性空间中的Zi和Zj相似性可以反映出高维非线性空间中Xi和Xj的相似性,因此,模型具有非线性关系。
综上所述,我们可以得到我们的最终模型:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛大学,未经青岛大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011369979.1/2.html,转载请声明来源钻瓜专利网。