[发明专利]一种基于密度语义子空间的文本与图像无标签识别的方法在审
申请号: | 201710561397.5 | 申请日: | 2017-07-11 |
公开(公告)号: | CN107341522A | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 田晋宇;曾俊杰;张太平;尚赵伟;唐远炎 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京同恒源知识产权代理有限公司11275 | 代理人: | 赵荣之 |
地址: | 400044 重*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 密度 语义 空间 文本 图像 标签 识别 方法 | ||
技术领域
本发明属于文本与图像聚类领域,具体涉及一种基于密度语义子空间的文本与图像无标签识别的方法。
背景技术
无标签识别即聚类,由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。数据聚类是数据分析和数据挖掘的基本任务,旨在揭示数据集的潜在固有结构,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。
K均值(K-Means)是传统的聚类算法,采用欧几里德距离上的差异性来对模式进行分组,但算法收敛太慢,需要先确定K值,且对噪声和离群点敏感,无法保证全局最优。最佳K均值(MaxMin K-means)考虑了样本的方差,通过最小化组内方差的同时最大化组间方差来实现K-Means算法,仍然是直接的聚类算法,对于复杂的数据无法很好区分。
子空间聚类算法(SSC)假设同类样本间具有相似的语义结构,其语义结构通常可以使用数据的稀疏性、低秩性或者每一数据的临近样本所刻画。具有相同语义结构样本分布在一个特定的子空间当中。也就是说,整个数据集是分布在多个不相交的子空间的并集之上。不同的语义空间刻画方法产生了不同的子空间学习算法,如:基于压缩感知思想的稀疏子空间聚类与低秩子空间聚类;基于最近邻的贪婪子空间聚类。基于压缩感知的语义空间学习算法主要利用了数据分布的稀疏特性以及低秩特性。而为了提高子空间算法的抗噪能力,文献“Y.X.Wang and H.Xu,“Noisy Sparse Subspace Clustering,”Journal of Machine Learning Research,vol.17,no.3,p.689C708,2013.”提出了抗噪稀疏子空间聚类(NSSC)。文献“M.Yin,J.Gao,and Z.Lin,“Laplacian Regularized Low-rank Representation and Its Applications,”IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.38,no.3,pp.504–517,2016.”提出了基于拉普拉斯正则图的低秩子空间算法(LapLRR)改进了原有的低秩子空间聚类。该方法通过对样本引入图结构提高了原始LRRC在数据的局部流形结构上的适应能力。文献“Xu W,Liu X,Gong Y.Document clustering based on non-negative matrix factorization[C]Proceedings of the,International ACM SIGIR Conference on Research and Development in Information Retrieval,July 28-August 1,2003,Toronto,Canada.DBLP,2003:267-273.”基于非负矩阵分解(NMF)的聚类算法,NMF基于生物学中的一个很好的研究结论,即人体的感知系统往往是从局部到整体的,对于同一类的物体,人类在观察的过程中感知的局部特征往往具有相似性。因此,通过对整个数据集做非负矩阵分解可以得出样本的局部描述。这种局部的描述正好符合语义空间的特性。子空间聚类算法的语义表示呈现出线性结构,但与实际的数据不符,在实际的应用中,数据多呈现流行结构。
局部保持投影(LPP)受到了经典的流形学习算法——拉普拉斯特征映射(LE)的启发,采用了一种更有效的方式去线性逼近LE。LPP首先在样本原始表征空间上构建出连接图,然后通过映射F,将高维空间中的样本映射至语义空间。在这个过程中,LPP保持高维空间中相临近点之间的距离,即原始空间中相近的两个点,经过LPP投影至语义空间的基向量之上时仍然能够保持相对距离。但局部保持投影是通过距离保持的方式揭示数据语义子空间结构,其本质为刚性变化,这使得在维数下降的过程中无法保持数据整体结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710561397.5/2.html,转载请声明来源钻瓜专利网。