[发明专利]一种基于测地线保持的非线性数据降维方法有效
申请号: | 201710068158.6 | 申请日: | 2017-01-23 |
公开(公告)号: | CN106960000A | 公开(公告)日: | 2017-07-18 |
发明(设计)人: | 刘洁;林少斌;刘希;欧阳效源;马争鸣 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于测地线保持的非线性数据降维方法。首先对输入样本点集取随机最短路径,找到样本点集的一个测地线集合。每条测地线的低维嵌入的全局坐标为该测地线在高维流形中的局部坐标通过一定的旋转变换得到,因此,中心化的低维嵌入的全局坐标可用中心化的高维流形中的局部坐标表示。由于每条测地线的全局坐标可以用选择矩阵与所有样本点的低维嵌入坐标表示,再根据实际值和估计值的平方误差和最小原则,使得低维嵌入全局坐标与经过旋转变换后的局部坐标的平方误差和最小,从而解得样本点在低维嵌入的全局坐标。 | ||
搜索关键词: | 一种 基于 地线 保持 非线性 数据 方法 | ||
【主权项】:
一种基于测地线保持的非线性数据降维方法,其特征在于该方法的步骤如下:A.对于一个高维数据样本点集为X=[x1 … xN]∈RD×N,其映射到低维空间中的样本点集为Y=[x1 … xN]∈Rd×N,其中:D为高维空间的维数;d(d<<D)为低维空间的维数;X为高维数据模型的输入,是高维空间RD×N中的N个D维实数列向量;Y为高维数据映射到低维空间中的输出样本集,是低维空间Rd×N中的N个d维实数列向量;B.以存在于高维空间中的样本点集中的一个随机样本点为当前样本点计算以该点作为起点,到样本点集中其余点的最短路径中覆盖点最多的一条路径作为所求测地线,并将该测地线所覆盖的点从样本点集中剔除;重复以上步骤,得到测地线集合,并对每条测地线局部保持处理,得到其在低维流形上的嵌入坐标,操作步骤如下:B1、计算样本点集中邻近点对i,j之间的欧式距离dx(i,j),构建一个反映样本点集邻近关系的带权流通图,根据带权流通图,计算样本点集相应的测地距离矩阵;对输入样本点集构建K近邻邻接图,从样本点集中取一个随机点,计算从该点到样本点集中其余点之.间的最短路径集合,再从此测地线集合中选出一条覆盖点最多的路径其中为测地线P中的第Np个样本点,p=1,…,P,将以上所获得的一条路径所覆盖的点从样本点集中去除;重复以上步骤,直到样本点集为空集,得到所求测地线集合;B2、每条测地线都可以用一个该测地线所覆盖到的点的点集形式来表示成局部坐标的形式其中i=2,…,Np,表示之间的测地距离;B3、不失一般性地,使θp,1=0,vp=[1 0 … 0]T表示将每条测地线的局部坐标Θp进行中心化处理并且通过一定的变换投影到各局部坐标中以的一个坐标轴,即有:从而得到中心化后的局部坐标B4、同样,将测地线的全局坐标进行相应的中心化处理,得到其中是每条测地线相应的选择矩阵,表示为:其中i=1,…,Np‑1;B5、由于全局坐标是局部坐标的仿射变换,即;Ap表示对Θp进行旋转和缩放的变换矩阵;就几何意义而言,在d维欧氏空间Rd中,把局部坐标Θp向全局坐标平移,使得平移后的局部坐标的中心与全局坐标Yp的起点重合,然后再围绕着全局坐标Yp的起点进行旋转和缩放;根据可得:表示的右伪逆,也即是最小二乘问题的解;B6、根据可以得到综合考虑所有测地线的情况,有:B7、根据实际值和估计值的平方误差和最小原则,有B8、令因此只需要求解:argminYΣp=1P||YLp||2=argminYΣp=1Ptr(YLpLpTYT)=argminYtr(Y(Σp=1PLpLpT)YT).]]>
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710068158.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种语音搜索的方法及装置
- 下一篇:一种检索词的实体链接方法及系统