[发明专利]一种基于局部同胚与全局子空间投影距离最小的张量降维算法在审

申请号：	202010303141.6	申请日：	2020-04-17
公开（公告）号：	CN111563538A	公开（公告）日：	2020-08-21
发明（设计）人：	马争鸣;张国凯;黄海东;张舒婕;刘洁	申请（专利权）人：	中山大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于局部局子空间投影距离最小张量算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出了一种基于局部同胚与全局子空间投影距离最小的张量降维算法，用于对高维的张量数据简化，使处理器能够更加迅捷地处理海量数据。本发明运用K近邻准则将原始高维的张量数据分割一个个局部，同时在局部同胚准则下，以保持每个局部从原始高维张量数据映射到切空间的连续依赖关系不变。由于张量与矩阵的模式积可以改变维数的大小，因此本发明是学习一个子空间，使得高维张量数据与其子空间投影距离最小，即降维数据之间方差最大化，这有利于每个低维数据个体的判别分析。本发明结合局部同胚与全局子空间投影距离最小两个准则，充分考虑了高维张量局部的非线性几何结构和全局的分布信息，在降维过程中能更好地保持数据的内在几何关系，防止重要特征的丢失。

技术领域

本发明属于机器学习领域，涉及流形学习中张量的降维问题，用于保持高维张量数据映射到切空间的连续依赖关系不变，同时要求张量与其在子空间上的投影距离最小，对高维张量数据进行降维，得到保持原始数据几何结构的低维表示。

背景技术

近年来，随着大数据的降临，其中现代通信技术，存储技术，云计算的得到快速发展，在现实生活中，往往存在来自不同领域上产生大量多维数据(也称为张量)，这些数据往往含有大量的冗余信息，在特征提取过程中往往会造成维度灾难问题，因此通常会对其进行降维处理，以提高学习效率。

数据降维是流形学习的重要应用领域。从数学来说，所谓流形就是与欧式空间局部同胚的拓扑空间。同胚是指二个拓扑空间之间的一个映射，如果是双射(可逆)，而且和的逆映射都是连续映射，则称是一个同胚映射。在拓扑空间的理论中，如果二个拓扑空间是同胚的，这二个拓扑空间就可以视为同物。所谓流形，就是一种特殊的拓扑空间，如果把这个拓扑空间分解为一个一个局部，那么，每个局部都会与同一个欧式空间的某个开集同胚，这个欧式空间的维数称为流形的维数这种同胚称为流形与欧式空间之间的局部同胚，而与流形局部同胚的欧式空间的开集称为流形的局部坐标。

现在，如果数据是从嵌入在高维欧式空间的一个低维子流形上采集，那么，虽然数据是用高维欧式空间的高维向量来表示，但是，因为数据受到低维子流形的约束，数据的实际维度(自由度)是低维的，存在数据降维的可能。这就是流形学习应用于数据降维的原因。

由于张量与矩阵的模式积可以改变张量的维度大小，因此我们利用张量与一组矩阵的模式积实现降维。从几何角度，张量与矩阵的模式积是张量在矩阵构成的子空间上的投影。为了更好地对个体进行判别分析，我们要求张量与其在子空间上的投影距离最小，即要求降维张量满足方差最大化。

综上考虑数据的局部同胚特性与全局子空间投影距离最小，本发明提出了一种基于局部同胚与全局子空间投影距离最小的张量算法，该算法即考虑了数据在全局分布信息和局部的非线性几何结构，在降维过程中能更好保持数据的内在几何关系，减少重要特征的损失。

发明内容

本发明研究高维的多维数据的降维问题。由于数据降维算法的构建需要利用数据之间的联系，因此，数据降维算法的构建都是基于数据集，而不是基于单个数据。所以与大多数应用不同，本发明采用一个张量表示一个多维数据集。在这个表示中，张量的前面各维表示多维数据的各个维度，而最后一维则表示数据集所包含的数据的个数。

目前流行学习领域提出了许多算法，包括拉普拉斯特征映射、局部线性嵌入、局部切线空间对齐、等距映射、Hessian局部线性嵌入等，使得到的低位数据仍具有原高维数据类似的局部几何结构。本发明运用K近邻准则将原始高维张量数据分割成一个个局部，然后将局部数据映射到切空间上，获取低维局部坐标，通过仿射矩阵将局部坐标对齐，从而学习张量数据的局部非线性结构，即保持了该局部到低维空间的连续依赖关系不变，有利于保持数据之间的几何关系。

由于张量与一个矩阵的模式积可以改变张量某个维度的大小，从几何角度，张量与矩阵的模式积是张量在矩阵构成的子空间上的投影。我们用张量数据在子空间投影的坐标作为张量降维的结果。为了更好地对每个降维数据进行判别分析，我们要求张量与其在全局子空间上的投影距离最小，即降维张量满足方差最大化。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010303141.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于局部同胚与全局子空间投影距离最小的张量降维算法在审

专利文献下载