[发明专利]一种支持拓扑结构保持的高维数据可视化方法有效
申请号: | 201911179884.0 | 申请日: | 2019-11-27 |
公开(公告)号: | CN110955809B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 窦慧;申富饶;徐百乐 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/904 | 分类号: | G06F16/904;G06F16/901;G06F16/906;G06N3/048;G06N3/088 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华;于瀚文 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 拓扑 结构 保持 数据 可视化 方法 | ||
1.一种支持拓扑结构保持的高维数据可视化方法,其特征在于,包括如下步骤:
步骤1,通过非监督学习神经网络自组织增量学习网络,自主构建数据在高维空间的聚类拓扑结构,并从原始数据集中自组织的学习出一个代表所述聚类拓扑结构的代表数据集;
步骤2,进行可视映射,利用降维方法将代表数据集映射到可视空间内,并保持代表数据的相对距离,生成二维基准点,基准点在可视空间中自适应生成可视网络结构,将高维数据集映射至可视网络结构;
步骤3,进行可视渲染,展示的基准点的大小正比于该基准点的激活次数,通过基准点的位置和大小,展示数据集在可视空间的密度分布情况;
步骤1包括:
步骤1-1,通过自组织增量学习网络构造单层的神经网络,所述神经网络包括神经元集合A和边集合其中第i个神经元i∈A的权重ωi∈Rn是它在高维空间中的坐标表示,其中Rn表示n维实数集;边集合记录神经元之间的连接关系和边的年龄;
步骤1-2,初始化神经网络;
步骤1-3,通过竞争学习迭代训练神经网络;
步骤1-4,更新神经网络;
步骤1-5,进行网络去噪;
步骤1-2包括:初始时神经元集合A={c1,c2},其中,定义两个神经元c1、c2的权重分别为ω1、ω2,ω1和ω2是高维数据集中的随机两个数据样本,初始边集合为空集;
步骤1-3包括:在每次迭代过程中,输入一个新的高维数据样本s∈Rn,找出A中与其最相似的两个神经元,即获胜神经元s1和s2:
步骤1-4包括:使用激活阈值判断新样本s与获胜神经元s1和s2是否属于同一类别:
对于任意神经元i,激活阈值如果神经元i与其他神经元无连接,则
如果或者/成立,则判定s是一个新的神经元,加入到神经元集合A中;
否则,如果s1和s2之间无连接,则连接s1和s2并加入到C中,年龄设为0;与获胜神经元s1相连的所有边的年龄加1,更新获胜神经元s1的权重为α是学习率,α∈(0,1);
步骤1-5包括:迭代n1次后,神经网络删除由噪声产生的神经元,移除边的年龄值过大的边连接,其中,如果一个神经元是孤立的或只有一个边连接,则判定它是需要被删除的噪声点;
迭代过程完成后,神经网络训练完成,输出神经元集合即为代表数据集,神经元的权重即是代表数据集的权重;
步骤2包括:
步骤2-1,生成可视空间基准点;
步骤2-2,进行拓扑保持映射;
步骤2-1包括:对于代表数据集的数据,计算平方欧式距离,生成距离矩阵D:
D中元素Dij为ωi和ωj的平方欧式距离,计算公式如下:
Dij=||ωi-ωj||2,
ωi和ωj的中心矩阵H,其中H中元素Hij计算如下,n为数据维数:
根据矩阵H,将矩阵D转换成矩阵B:
由此获得神经网络输出的代表数据集在二维可视空间对应的点,称之为基准点,基准点的权重即是相应代表数据集中点的权重;
基准点在二维可视空间中的空间坐标表示为L:
其中,λi是矩阵B的第i大的特征值,νi是其对应的特征向量;
步骤2-2包括:将全部高维数据集映射至可视网络结构,实现高维数据可视化的目标:
依次输入样本x∈Rn,通过找出与其最相似的基准点c1,其中ωc1是基准点c1的权重;
更新基准点c1的权重:
基准点c1的激活次数加1;
步骤3包括:根据基准点的二维坐标表示其位置,基准点的点的大小正比于所述基准点的激活次数,通过基准点的位置和大小,即能够展示数据集在可视空间的密度分布情况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911179884.0/1.html,转载请声明来源钻瓜专利网。