[发明专利]一种基于重构误差的局部线性嵌入算法在审
申请号: | 202010303124.2 | 申请日: | 2020-04-17 |
公开(公告)号: | CN111563537A | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 马争鸣;陈皓青;袁雪敬;林远平;刘洁 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 误差 局部 线性 嵌入 算法 | ||
本发明提出了一种基于重构误差的局部线性嵌入算法,可以在一定程度上解决解决传统的局部线性嵌入算法在面对局部曲率过大的数据不能准确地进行降维的问题,取得更加好的降维效果。本发明在对数据流形划分局部之后,首先计算出每一个局部上邻域点对中心点的拟合关系并且求得邻域点拟合中心点的重构误差,再根据重构误差的大小和各邻域点与中心点的距离的关系构建出调整矩阵,对原拟合关系进行调整,得到新的重构权重,在降维过程中保持新的重构权重不变得到原数据的低维结果。本发明在原理上可以保留局部线性嵌入有效的结果而仅仅对结果欠佳的局部进行调整,因此可以在大部分情况比原本的局部线性嵌入算法有更好的效果。
技术领域
本发明属于机器学习中的流形学习领域,是一种用于数据降维算法,可以将原始维度高的数据降到低维的同时保持数据原本的流形结构。
背景技术
流形学习是数据降维技术中的一种非线性的方法,随着人工智能和机器学习领域的发展,需要处理的数据的维度越来越高,过高的数据维度会带来信息冗余,并且给后续的处理带来不便。数据降维技术就是在尽可能保持原始数据特征的前提下对数据进行维数约减。传统的数据降维方法是线性方法,即相当于寻找一个投影矩阵W将高维数据X直接投影到低维的子空间上:Y=WTX。
但是随着数据类型的增多,数据的结构也变得越来越复杂,非线性的数据的出现,使得线性降维方法应用在这些数据上时会使得不同类的数据发生堆叠,出现相当大的误差,因此流形学习就是一种非线性的数据降维方法,流形学习假设数据是分布在嵌入在高维空间中的低维流形M,即M是高维空间RD的真子集,然而流形M的本征维度为d,且满足d<<D,流形学习的目标则是要实现映射M→Rd。即在不影响数据原本的流形结构的同时,进行维数约减。
局部线性嵌入(Locally Linear Embedded,LLE)算法是流形学习中一个相当经典的算法,其主要思想是将高维数据划分为数个相互交叠的局部,并在局部中用邻域点的线性重构权重去拟合中心点,LLE算法假设当局部足够小的时候,数据的低维嵌入依然保持着这个重构权重关系,因此可以通过同时保持这些重构权重进行降维。
LLE在流形学习研究早期取得了理想的成果,然而随着流形学习领域的发展,LLE本身的缺陷也暴露了出来。首先,LLE对于局部的选取非常严格,局部选取过小则无法很好地保留流形局部特征,局部选取过大会导致局部拟合误差过大,让算法失效,这使得在应用LLE算法时,通常需要花大量的时间对局部选取的参数进行调整,造成时间与计算资源的浪费。其次,LLE没有考虑到边缘点与离群点带来的影响。在真实数据中,数据点并不是均匀地从数据流形上采样的点,会出现由采样不均匀以及采样范围限制所带来的离群点和边缘点,造成局部划分错误或者丢失局部信息等问题。最后,LLE的局部拟合方式使得在原始数据流形局部曲率过大的地方会产生比较大的误差,而拟合的中心点过于偏离邻域点组成的平面则会丢失一部分的几何信息造成算法性能下降。
本专利发明了一种基于重构误差的局部先行嵌入的改进算法,将重构误差与中心点与邻域点之间的欧式距离考虑进了算法之中,可以在一定程度上解决上述问题。
发明内容
LLE的核心在于计算并利用邻域点对中心点的线性重构权重来表示流形局部的特征,并保持这个特征进行降维。但是在实际操作时,这个线性重构大多数都难以做到完全准确地重构,即会出现xi≠wi1xi1+wi2xi2+…+wikxik的情况,而他们之间的误差被称为重构误差,邻域点对中心点xi的重构误差为Ji≥0,而在实际上大多数情况中,Ji>0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010303124.2/2.html,转载请声明来源钻瓜专利网。