[发明专利]高维数据的二维投影方法及其投影系统在审

专利信息
申请号: 201710619475.2 申请日: 2017-07-26
公开(公告)号: CN107423763A 公开(公告)日: 2017-12-01
发明(设计)人: 夏佳志;李强;奎晓燕;王建新;廖胜辉 申请(专利权)人: 中南大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 长沙永星专利商标事务所(普通合伙)43001 代理人: 周咏,米中业
地址: 410083 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 二维 投影 方法 及其 系统
【说明书】:

技术领域

发明具体涉及一种高维数据的二维投影方法及其投影系统。

背景技术

高维度是大数据的重要特征之一。从可视分析的角度来看,高维数据是指维度太高,以至于难以从维度集合中提取有意义的关联信息的数据。从几何观点看,降维可以看作挖掘嵌套在高维空间中的线性或非线性低维流形。子空间聚类分析是一种有效探索和分析高维数据的方法。

聚类分析的关键在于定义一个合适的度量。在K-NN图上的测地距离是一个适当的评估数据点之间相似度的度量。现有的降维方法主要是保持了最大方差信息的PCA((Principal Component Analysis)),保持了数据差异性的MDS(multidimensional scaling)和保持了样本邻域的概率分布的t-SNE等方法。然而这些主要方法都存在着一定的缺陷:

(1)PCA和MDS方法属于全局线性降维方法,难以保持高维数据中可能存在的非线性结构和子空间聚类结构。

(2)t-SNE属于非线性降维方法,而t-SNE方法的计算复杂度较高,在对大规模高维数据的降维中效率显著降低,并且参数对数据敏感性较高。同时,t-SNE方法也难以检测子空间聚类结构。

现有的一些自动化空间聚类方法仅限于将标识子空间聚类的过程自动化,并且这些方法常生成具有高冗余度并且无法准确解释的数据结果。双重空间探测方法使用全维度空间距离作为初始化数据点间的距离度量,但其经常导致分析过程中出现大量的试错步骤。

发明内容

本发明的目的之一在于提供一种能够帮助用户在探索和分析高维数据时能够快速发现数据的子空间聚类结构的高维数据的二维投影方法。.

本发明的目的之二在于提供一种实现所述高维数据的二维投影方法的投影系统。

本发明提供的这种高维数据的二维投影方法,包括如下步骤:

S1.针对需要投影的高维数据,建立基于测地距离的数据点相关性度量;

S2.根据步骤S1建立的度量建立局部子空间差度量;

S3.根据步骤S1和S2建立的度量,建立局部子空间差-测地距离投影,从而将高维数据进行二维投影。

步骤S1所述的建立基于测地距离的数据点相关性度量,具体为采用如下步骤建立度量:

A.在需要投影的高位数据集的基础上构建具有若干连通分量的S-NN图;

B.针对步骤A中的各个连通分量,对任意两个独立的连通分量进行连接;

C.计算任意两点之间的最短距离,从而获得测地距离。

步骤B所述的对任意两个独立的连通分量进行连接,具体为连接两个连通分量中距离最近的两个数据点。

步骤C中所述的计算最短距离,具体为采用最短路径算法计算。

步骤S2所述的建立局部子空间差度量,具体为采用如下步骤建立度量:

1)采用如下公式计算各个维度的权重:

式中ω为维度权重矩阵,ωi表示第i个维度的权重,σi表示第i个维度中数据点的方差,d为维度的数量;

2)采用如下公式计算SNN图中任意两点之间的带权距离:

dpq[W]=max{dpqp],dpqq]}

其中dpq[W]为点p与点q的带权距离矩阵,ωp=[ωp1p2,...,ωpi,...,ωpd]表示p的局部子空间的特征向量,ωq=[ωq1q2,...,ωqi,...,ωqd]表示q的局部子空间的特征向量,di为在第i维中p的局部子空间和点q之间的欧式距离,dpqp]为点相对于点p的带权距离,dpqq]为点p相对于点q的带权距离;

3)基于余弦相似度,按照如下公式建立差量矩阵:

式中为点pi和pj基于余弦相似性的差异值;i和j皆为数据点的编号,取值范围为[0,n),n为数据集大小。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710619475.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top