[发明专利]基于核空间的流形学习非线性逼近的算法在审
申请号: | 201910062746.8 | 申请日: | 2019-01-23 |
公开(公告)号: | CN109784498A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 马争鸣;苏薛;刘佳;刘洁 | 申请(专利权)人: | 中山大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 高维数据 低维 降维 流形学习算法 流形学习 核函数 非线性逼近 算法 机器学习领域 训练数据集 低维空间 高维空间 数据降维 映射关系 逼近 保存 预测 学习 | ||
本发明涉及机器学习领域中的数据降维问题,提出了一种基于核空间的流形学习非线性逼近的算法。本方法首先根据给定的高维数据以及选定的流形学习算法,在此流形学习算法下计算高维数据的低维坐标并保存下来;其次根据给定的高维数据张成一个核函数空间,在此空间上定义一个降维函数,使得由此降维函数得到的低维坐标和流形学习算法得到的低维坐标之间的误差最小,从而学习出降维函数的参数;最后对于新给定的高维数据可直接由构造的降维函数来预测其低维坐标。本发明的主要思想是给定高维数据和由流形学习得到的低维坐标,用核函数空间上定义的核函数去逼近训练数据集从高维空间到低维空间的映射关系,进而得到一个新的降维函数。
技术领域
本发明属于机器学习领域,具体涉及流形学习中的一种通用的基于核空间的非线性逼近的降维算法。
背景技术
随着互联网技术的蓬勃发展,时时刻刻都在产生各种各样的数据,比如图像、视频、音频、文本、遥感、基因等等,这些数据往往具有较高的维度,数据的冗余性较大,处理时容易陷入维度灾难,数据难以被高效利用,并会消耗大量的计算资源。数据降维技术在保持数据本质特征不变的情况下将高维空间上的数据映射到低维空间,达到压缩数据、降低存储需求、减少噪声等目的,该技术在机器学习、模式识别等领域扮演着重要的角色。
流形学习作为数据降维的一个重要分支,它比传统的线性降维算法(主成分分析(PCA)和多维尺度分析(MDS))更能体现事物的本质,更利于对数据的理解和进一步处理。由于其独特性,目前受到各界学者的广泛关注,关于不同领域的流形学习算法的研究也越来越多。下面将简单介绍几种具有代表性的流形学习算法:等距映射(ISOMAP)、局部线性嵌入(LLE)、局部切空间排列(LTSA)、拉普拉斯映射(LE)。
ISOMAP算法(文献1,Tenenbaum JB,Silva VD,Langford JC(2000)A GlobalGeometric Framework for Nonlinear Dimensionality Reduction.Science 290(5500):2319-2323)通过在高维空间中构造数据的邻域图,用邻域图中数据点之间的最短路径来估算数据点之间的测地距离,并通过MDS保持任意两点之间的测地距离来实现数据从高维空间到低维空间的映射。
LLE算法(文献2,Roweis ST,Saul LK(2000)Nonlinear dimensionalityreduction by locally linear embedding.Science 290(5500):2323-2326)是基于一个假设:每个数据点可以由其邻近点线性表示,它首先在高维空间中求出每个点由其邻近点线性表示的重构矩阵,并在低维空间中保持数据的这种重构关系。该算法在计算上有一定的优势,但是对外界噪声过于敏感,处理分布稀疏的数据时性能会大打折扣。
LTSA算法(文献3,Zhang ZY,Zha HY(2004)Principal manifolds and nonlineardimensionality reduction via tangent space alignment.SIAM J Sci Comput 26(1):313-338)通过将数据划分成一个个线性的局部并将每个局部中的数据投影到该局部中心点的切空间,然后在低维空间中将这些数据点在切空间的表示排列起来而得到所有数据的低维坐标。LTSA能够很好的保持原始数据的局部几何信息,通常它在对于非凸数据集上的表现较好,但同时它需要计算一个大规模矩阵的特征分解,同样存在高计算复杂度的问题。
LE算法(文献4,Belkin M,Niyogi P(2003)Laplacian eigenmaps fordimensionality reduction and data representaiton.Neural Comput 15(6):1373–1396)的主要思想是在高维空间中距离很近的点投影到低维空间中的象也应该离得很近,通过使用两点间的加权距离作为损失函数,利用图拉普拉斯算子的谱性质进行求解,得到保持数据集某种局部信息的最优低维表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910062746.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于计算图进化的AI模型自动生成的方法
- 下一篇:一种学习机器人及控制方法