[发明专利]高维数据的二维投影方法及其投影系统在审
申请号: | 201710619475.2 | 申请日: | 2017-07-26 |
公开(公告)号: | CN107423763A | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | 夏佳志;李强;奎晓燕;王建新;廖胜辉 | 申请(专利权)人: | 中南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 长沙永星专利商标事务所(普通合伙)43001 | 代理人: | 周咏,米中业 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 二维 投影 方法 及其 系统 | ||
技术领域
本发明具体涉及一种高维数据的二维投影方法及其投影系统。
背景技术
高维度是大数据的重要特征之一。从可视分析的角度来看,高维数据是指维度太高,以至于难以从维度集合中提取有意义的关联信息的数据。从几何观点看,降维可以看作挖掘嵌套在高维空间中的线性或非线性低维流形。子空间聚类分析是一种有效探索和分析高维数据的方法。
聚类分析的关键在于定义一个合适的度量。在K-NN图上的测地距离是一个适当的评估数据点之间相似度的度量。现有的降维方法主要是保持了最大方差信息的PCA((Principal Component Analysis)),保持了数据差异性的MDS(multidimensional scaling)和保持了样本邻域的概率分布的t-SNE等方法。然而这些主要方法都存在着一定的缺陷:
(1)PCA和MDS方法属于全局线性降维方法,难以保持高维数据中可能存在的非线性结构和子空间聚类结构。
(2)t-SNE属于非线性降维方法,而t-SNE方法的计算复杂度较高,在对大规模高维数据的降维中效率显著降低,并且参数对数据敏感性较高。同时,t-SNE方法也难以检测子空间聚类结构。
现有的一些自动化空间聚类方法仅限于将标识子空间聚类的过程自动化,并且这些方法常生成具有高冗余度并且无法准确解释的数据结果。双重空间探测方法使用全维度空间距离作为初始化数据点间的距离度量,但其经常导致分析过程中出现大量的试错步骤。
发明内容
本发明的目的之一在于提供一种能够帮助用户在探索和分析高维数据时能够快速发现数据的子空间聚类结构的高维数据的二维投影方法。.
本发明的目的之二在于提供一种实现所述高维数据的二维投影方法的投影系统。
本发明提供的这种高维数据的二维投影方法,包括如下步骤:
S1.针对需要投影的高维数据,建立基于测地距离的数据点相关性度量;
S2.根据步骤S1建立的度量建立局部子空间差度量;
S3.根据步骤S1和S2建立的度量,建立局部子空间差-测地距离投影,从而将高维数据进行二维投影。
步骤S1所述的建立基于测地距离的数据点相关性度量,具体为采用如下步骤建立度量:
A.在需要投影的高位数据集的基础上构建具有若干连通分量的S-NN图;
B.针对步骤A中的各个连通分量,对任意两个独立的连通分量进行连接;
C.计算任意两点之间的最短距离,从而获得测地距离。
步骤B所述的对任意两个独立的连通分量进行连接,具体为连接两个连通分量中距离最近的两个数据点。
步骤C中所述的计算最短距离,具体为采用最短路径算法计算。
步骤S2所述的建立局部子空间差度量,具体为采用如下步骤建立度量:
1)采用如下公式计算各个维度的权重:
式中ω为维度权重矩阵,ωi表示第i个维度的权重,σi表示第i个维度中数据点的方差,d为维度的数量;
2)采用如下公式计算SNN图中任意两点之间的带权距离:
dpq[W]=max{dpq[ωp],dpq[ωq]}
其中dpq[W]为点p与点q的带权距离矩阵,ωp=[ωp1,ωp2,...,ωpi,...,ωpd]表示p的局部子空间的特征向量,ωq=[ωq1,ωq2,...,ωqi,...,ωqd]表示q的局部子空间的特征向量,di为在第i维中p的局部子空间和点q之间的欧式距离,dpq[ωp]为点相对于点p的带权距离,dpq[ωq]为点p相对于点q的带权距离;
3)基于余弦相似度,按照如下公式建立差量矩阵:
式中为点pi和pj基于余弦相似性的差异值;i和j皆为数据点的编号,取值范围为[0,n),n为数据集大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710619475.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效无泄漏排油烟装置
- 下一篇:采暖或空调智能换热机组
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置