[发明专利]一种基于图神经网络的大规模数据可视化降维方法有效
申请号: | 202011258545.4 | 申请日: | 2020-11-12 |
公开(公告)号: | CN112241478B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 杨易扬;张景彬;任成森;巩志国;蔡瑞初;郝志峰;陈炳丰 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/904 | 分类号: | G06F16/904;G06N3/04;G06N3/084 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
地址: | 510090 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 大规模 数据 可视化 方法 | ||
1.一种基于图神经网络的大规模数据可视化降维方法,其特征在于,包括:
S1.获取高维数据集,对高维数据集进行预处理;
所述高维数据集包括词向量数据集和图形像素数据集,设高维数据集表示为D={D1,D2,...Di,...,DN},D∈Rd,R表示实数,Di表示第i个维度为d的向量,对高维数据集进行的预处理操作包括正则化处理;
S2.构建高维数据集的异构图;
步骤S2所述构建高维数据集的异构图的过程包括:利用高维数据集中已存在的异构图信息直接组成异构图或高维数据集中不存在异构图信息,构建高维数据集的KNN图;
所述利用高维数据集中已存在的异构图信息直接组成异构图的表达式为:
GH=(EH,VH)
其中,GH表示高维数据集的异构图,VH表示异构图的节点集合,VH中第i个节点vi对应的高维数据集的第一个向量D1;EH表示异构图的边,若节点vi与节点vj在异构图中存在边,则(vi,vj)∈EH;
S3.构建GNN图神经网络模型,将高维数据集及异构图作为输入,输出降维后的可视化向量;
S4.将高维数据集划分为测试集T和训练集S,构建图神经网络模型的损失函数,利用训练集S训练GNN图神经网络模型;
步骤S4所述构建图神经网络模型的损失函数面向的算法包括于t-SNE算法、UMAP算法及LargeVis算法,通过GNN图神经网络模型fGNN(GH,D,W)得到与输入高维数据集D={D1,D2,...,DN}对应降维后的y维可视化向量D′={D′1,D′2,...,D′N},其中D′∈Ry,y=2或3;
面向t-SNE算法构建的第一损失函数OFt-SNE满足:
其中,qij为中间概率,且为整数;
构建异构图的过程中获得高维数据集的概率分布P,表示为:
其中,pij表示节点Di的附近出现节点Dj的概率;k,l表示不同于i、j的数值编号;
面向UMAP算法构建的第二损失函数OFUMAP满足:
其中,β、u均为大于零的实数;
面向LargeVis算法构建的第三损失函数OFLargeVis满足:
其中,EH为异构图的边集合,δ为大于0的实数,表示在选定的数据节点Dj的情况下,节点Dk被选中的概率;
利用训练集S训练GNN图神经网络模型的过程为:
S41.基于第一损失函数OFt-SNE、第二损失函数OFUMAP及第三损失函数OFLargeVis,确定损失函数值OF;
S42.利用神经网络残差反向传播技术,计算GNN图神经网络模型中的所有节点残差,更新网络中的参数W={w1,w2,...,wH};
S43.存在收敛值E,判断损失函数值OF是否满足:
|OF-E|≤ε是否成立,ε表示足够小的正数,若是,训练结束;否则,返回步骤S41;
S5.GNN图神经网络模型训练完成后,利用测试集T对图神经网络模型进行测试,确定最终的可视化降维模型;
步骤S5所述利用测试集T对图神经网络模型进行测试的过程包括:
S51.确认高维数据集中的标签信息;
S52.将测试集T={T1,T2,...,TN′}通过训练好的GNN图神经网络模型进行降维,得到降维后的测试集T′={T′1,T′2,...,T′N′};
S53.利用k邻近邻居分类算法测试数据集T′的可视化效果:
确定测试节点i的k邻近邻居集合N(T′i)={T′i1,T′i2,...,T′ik};
通过k邻近邻居集合N(T′i)计算出节点T′i得到标签,判断是否与节点T′i的原分类标签是否一致,若是,GNN图神经网络模型为最终的可视化降维模型;否则,返回S4继续训练GNN图神经网络模型;
步骤S5所述利用测试集T对图神经网络模型进行测试的过程还包括高维数据集中未含标签信息的测试;过程为:
S501.将测试集T={T1,T2,...,TN′}通过训练好的GNN图神经网络模型进行降维,得到降维后的测试集T′={T′1,T′2,...,T′N′};
S502.设测试集T={T1,T2,...,TN′}的秩为ρ,计算满足:
ρij=|{k:δik<δijor(δik=δijand k<j)}|
δij=||Ti-Tj||2
其中,|·|表示集合的基数,δij表示降维前高维测试集节点i与高维节点j的距离;
降维后的测试集T′={T′1,T′2,...,T′N′}的秩为r,计算满足:
dij=||T′i-T′j||2
其中,dij表示低维节点i与低维节点j的距离;
S503.将降维前高维测试集的秩为ρ与降维后的秩r对比,利用co-ranking技术确认降维前高维测试集与降维后数据的相似度,判断相似度是否满足K标准,若是,GNN图神经网络模型为最终的可视化降维模型;否则,返回S4继续训练GNN图神经网络模型;
S6.将待降维的大规模数据集输入可视化降维模型,进行可视化降维。
2.根据权利要求1所述的基于图神经网络的大规模数据可视化降维方法,其特征在于,步骤S3所述的构建GNN图神经网络模型的过程为:
S31.确定GNN图神经网络模型的超参数,包括隐藏层的维度h、神经网络的深度H及学习速率γ;
S32.将高维数据集D及高维数据集的异构图GH=(EH,VH)作为GNN图神经网络模型的输入,选定神经网络模型参数W={w1,w2,...,wH},其中,wv表示GNN图神经网络第v层隐藏层的可训练参数;
S33.构建出GNN图神经网络模型fGNN(GH,D,W)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011258545.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电路板喷墨打印设备
- 下一篇:一种模拟四足动物机械结构
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置