[发明专利]一种基于局部正交对齐的特征降维方法有效
申请号: | 201410290957.4 | 申请日: | 2014-06-25 |
公开(公告)号: | CN104050483B | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 林通;王勃;查红彬 | 申请(专利权)人: | 北京大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京万象新悦知识产权代理事务所(普通合伙)11360 | 代理人: | 朱红涛 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 正交 对齐 特征 方法 | ||
技术领域
本发明属于模式识别领域,具体涉及一种保持局部正交对齐的非线性降维方法(简称LOPA)。
背景技术
随着计算机、互联网等科学技术的飞速发展,人们获取、存储数据的能力不断增强。现在的数据已经开始呈现出规模大、维度高的特性,如高清照片视频数据、基因染色体数据、社交网络的用户数据等。这些海量的高维数据在为人们的生活、研究工作带来便利的同时也带来了存储、传输、处理上的困难。首先是“维度灾难”问题,在机器学习中,很多在低维空间中有效的算法在高维空间中并不能得以直接地推广;其次,高维数据往往带有很多的冗余信息,这些冗余信息为我们认清数据的本质特征带来了困难。数据降维,作为机器学习、模式识别、数据挖掘必要的预处理步骤,就是有效的解决办法。
数据降维,又称为维度约简,在特定的优化目标下,通过线性或非线性映射将高维数据映射到低维空间。降维的目标一般是要保持原有高维空间中某些特性,如距离、方差等。这样在减少数据规模的情况下,仍然能保持数据的主要信息。数据降维的意义主要表现在:
●特征提取:高维特征数据通常带有很多不相关的信息,通过数据降维,可以实现特征空间的维度缩减,去除冗余信息,得到最本质的数据特征。使用降维后的特征进行分类、聚类等算法就显得更加高效。
●数据可视化:对于高维数据,很难直观的理解数据的分布形式、近邻、距离等信息。数据降维是数据可视化的重要环节,通过将数据降到2、3维,我们就可以直接观察到数据的分布,为后续的数据分析、处理建立合适的模型、选择合理参数与方法。
●数据的存储与传输:在“信息爆炸”的今天,每天有数以亿计的图片、视频被上传到视频分享网站,如youtube、facebook、instagram等。这些海量的高维数据给存储和传输带来不便。通过降维,在保持数据主要特征的情况下,对数据进行压缩,大大降低数据的规模。
降维的数学定义:对于高维空间中N个m维的数据点xi组成的矩阵X=[x1,...,xN]∈Rm×N,其本征维度d通常远远小于m。寻找映射F(X):X∈Rm×N→Y∈Rd×N,在尽量保持高维数据信息的同时,将数据从m维映射到d维其中Y=[y1,...,yN]∈Rd×N为高维数据X对应的低维坐标。
降维算法可以根据映射是否为线性分为线性降维算法和非线性降维算法。经典的线性降维算法有:主成分分析(PCA)、线性判别分析(LDA)、多维尺度变换(MDS)等。线性降维算法通常计算简单、速度快,有简单的线性变换函数,通过特征之间的线性组合得到降维后的结果。若高维数据有很强的线性结构,那么这类线性降维算法有令人满意的效果。但是对于流形数据如瑞士卷数据等,线性降维算法往往无法捕捉到流形的结构信息。为此,人们开始非线性降维算法方面的研究,特别是流形学习,用来处理数据中的流形结构。非线性降维(这里主要指流形学习算法)有:等距映射方法(Isomap)、局部线性嵌入(LLE)、拉普拉斯特征映射(LE)、局部切空间对齐(LTSA)、最大方差展开(MVU)、局部正交流形嵌入(PSA)、正交近邻保持投影(ONPP)等。
发明内容
本发明的目的在于针对仿射变换进行全局对齐时不能保持距离、尺度、角度等几何性质的缺点,提出一种局部正交对齐的降维方法,通过正交约束来保持数据的几何性质。
本发明的技术方案如下:
一种基于局部正交对齐的降维方法,采用如下步骤进行数据降维(流程参见图4):
步骤1:输入N个高维数据点xi∈Rm组成的数据矩阵X∈Rm×N,根据高维数据点之间的欧式距离,获取数据点xi的局部近邻关系:xi的局部k近邻Xi∈Rm×k,近邻选择矩阵Si∈RN×k,Si是0-1选择矩阵,使得Xi=XSi;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410290957.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可翻转连续切割的单晶切割用夹具
- 下一篇:一种数控切割机的标识实现装置