[发明专利]基于保内积降维技术的模式识别方法有效
申请号: | 201310276362.9 | 申请日: | 2013-07-03 |
公开(公告)号: | CN103310216A | 公开(公告)日: | 2013-09-18 |
发明(设计)人: | 林通;戚峰;查红彬 | 申请(专利权)人: | 北京大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46 |
代理公司: | 北京万象新悦知识产权代理事务所(普通合伙) 11360 | 代理人: | 朱红涛 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 内积 技术 模式识别 方法 | ||
技术领域
本发明属于模式识别领域,具体涉及一种保持局部内积不变的非线性降维方法。
背景技术
特征提取原本是计算机视觉和图像处理中的一个概念,后被引入机器学习领域,成为一个重要研究问题。通过特定的计算方法,从输入数据中得到特征用于学习,是现今分类、同归等问题的一般策略。学习过程中,我们获得的样本的各种属性都可以以数据的形式进行保存。由于技术设备的不断进步,我们可以采集到的样本信息也不断增加,将这些信息归纳成数据时,其维度也不断膨胀。在如此高维度的数据里,包含了很多冗余信息。如果能去除那些对问题影响极小的甚至是带有误差的信息,势必能简化问题。降维于是应运而生。
降维即降低维度,通过对高维数据进行一定的操作,削减其信息的维度,从而达到简化问题的目的。这种简化,将对提升学习问题的效率和精度有很大的帮助。降维工作的本质是在保留数据特征的前提下,将高维数据转化为相应的低维数据,为一种特种提取的方法。高维数据通常存在一个低于自身数据维度值的内蕴维度:即能使用最少参数表示数据信息的参数个数。降维的一个重要工作就是寻找高维数据的内蕴维度,将数据降维至此维度从而将数据信息得到较好的保留。由于其实为特征提取,降维在机器学习的很多领域诸如分类,可视化和数据压缩等中都有着重要的应用,也是众多学习方法的基础工具。
随着现实问题中数据越来越复杂,其结构信息也受到了越来越多的关注。在相关研究中,极具代表性的是流形学习。流形学习于2000年被提出,现已成为研究热点。假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。出于几何信息对于复杂数据结构更全面、准确的刻画,流形学习在机器学习领域中显示出其重要意义。
一般的降维问题的数学描述为:假设有初始高维数据集X,方便起见将其各数据点的坐标写成整体用矩阵表示,也记为X,它是一个RD×n的矩阵,包含n个D维的数据向量xi(i=1,2,..,n),并且假定此数据的内蕴维度为d(d<D,并且一般d<<D)。数学上对内蕴维度的解释如下:即数据集X中的数据点落在或几乎落在一个能够嵌入D维空间中的d维流形上。降维即寻找一个X到d维数据集Y的变换,能够使得X的信息得到最大程度的保留。即通过寻找映射F:x→y(x∈X,y∈Y),其中x表示高维数据集中的数据点,y表示低维数据集中的数据点,x∈RD,y∈Rd,F(·)∈RD→Rd。当映射F为左乘一个矩阵时,该方法就是一个线性降维方法。其形式为Y=AX。一般来讲,其低维坐标表示Y与内蕴维度d都是未知的,而我们的求解目标主要为Y。
目前已有很多数据降维的方法,按照对输入数据的映射变化是否线性分为线性降维方法和非线性降维方法。线性方法的映射是一个线性变化,即在原数据矩阵上左乘一个映射矩阵得到低维结果。非线性方法的映射函数较为复杂,往往不能精确求得,但我们只需得到高维数据被映射后的结果即可。最广泛使用的线性降维方法是主成分分析法(PCA),其他方法有独立成分分析法(ICA)、线性决策分析法(LDA)等。由于在处理结构更为复杂的数据时效果不令人满意,在上述方法之后,很多非线性降维方法被提出,他们在处理这些数据时能更好的保持其特性。非线性降维方法主要包括核方法、全局方法和局部方法:核函数主成分分析法(KPCA)、核函数决策分析法(KDA)等一类基于核函数的方法统称为核方法;等距特征映射法(ISOMAP),全局保距映射法(MDS)属于典型的全局方法;而局部方法的代表有局部线性嵌入法(LLE),拉普拉斯特征映射法(LE)和局部切空间排列法(LTSA)等。
已有降维方法都较好地实现了数据降维目的,他们从不同的角度出发,保留了数据不同的特征。但线性方法无法较好处理流形学习问题,核方法中核函数选取困难,全局方法计算速度慢,局部方法对数据几何信息保持效果不佳。我们希望结合各类方法的优点,得到一种能够较好保持数据几何信息,同时计算速度较快的降维方法。
发明内容
本发明的目的在于提出一种保持局部内积不变的降维方法,针对具有流形结构的复杂数据,重点保持数据的几何信息。
本发明的技术方案如下:
一种基于保内积降维技术的模式识别方法,其特征是,所述模式识别方法采用如下步骤进行降维:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310276362.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:手写体数字识别方法及系统
- 下一篇:一种无规共聚物及其制备方法和应用