[发明专利]一种基于图神经网络的大规模数据可视化降维方法有效

申请号：	202011258545.4	申请日：	2020-11-12
公开（公告）号：	CN112241478B	公开（公告）日：	2023-05-30
发明（设计）人：	杨易扬;张景彬;任成森;巩志国;蔡瑞初;郝志峰;陈炳丰	申请（专利权）人：	广东工业大学
主分类号：	G06F16/904	分类号：	G06F16/904;G06N3/04;G06N3/084
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	张金福
地址：	510090 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于神经网络大规模数据可视化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于图神经网络的大规模数据可视化降维方法，其特征在于，包括：

S1.获取高维数据集，对高维数据集进行预处理；

所述高维数据集包括词向量数据集和图形像素数据集，设高维数据集表示为D＝{D₁，D₂，...D_i，...，D_N}，D∈R^d，R表示实数，D_i表示第i个维度为d的向量，对高维数据集进行的预处理操作包括正则化处理；

S2.构建高维数据集的异构图；

步骤S2所述构建高维数据集的异构图的过程包括：利用高维数据集中已存在的异构图信息直接组成异构图或高维数据集中不存在异构图信息，构建高维数据集的KNN图；

所述利用高维数据集中已存在的异构图信息直接组成异构图的表达式为：

G_H＝(E_H，V_H)

其中，G_H表示高维数据集的异构图，V_H表示异构图的节点集合，V_H中第i个节点v_i对应的高维数据集的第一个向量D₁；E_H表示异构图的边，若节点v_i与节点v_j在异构图中存在边，则(v_i，v_j)∈E_H；

S3.构建GNN图神经网络模型，将高维数据集及异构图作为输入，输出降维后的可视化向量；

S4.将高维数据集划分为测试集T和训练集S，构建图神经网络模型的损失函数，利用训练集S训练GNN图神经网络模型；

步骤S4所述构建图神经网络模型的损失函数面向的算法包括于t-SNE算法、UMAP算法及LargeVis算法，通过GNN图神经网络模型f_GNN(G_H，D，W)得到与输入高维数据集D＝{D₁，D₂，...，D_N}对应降维后的y维可视化向量D′＝{D′₁，D′₂，...，D′_N}，其中D′∈R^y，y＝2或3；

面向t-SNE算法构建的第一损失函数OF_t-SNE满足：

其中，q_ij为中间概率，且为整数；

构建异构图的过程中获得高维数据集的概率分布P，表示为：

其中，p_ij表示节点D_i的附近出现节点D_j的概率；k，l表示不同于i、j的数值编号；

面向UMAP算法构建的第二损失函数OF_UMAP满足：

其中，β、u均为大于零的实数；

面向LargeVis算法构建的第三损失函数OF_LargeVis满足：

其中，E_H为异构图的边集合，δ为大于0的实数，表示在选定的数据节点D_j的情况下，节点D_k被选中的概率；

利用训练集S训练GNN图神经网络模型的过程为：

S41.基于第一损失函数OF_t-SNE、第二损失函数OF_UMAP及第三损失函数OF_LargeVis，确定损失函数值OF；

S42.利用神经网络残差反向传播技术，计算GNN图神经网络模型中的所有节点残差，更新网络中的参数W＝{w₁，w₂，...，w_H}；

S43.存在收敛值E，判断损失函数值OF是否满足：

|OF-E|≤ε是否成立，ε表示足够小的正数，若是，训练结束；否则，返回步骤S41；

S5.GNN图神经网络模型训练完成后，利用测试集T对图神经网络模型进行测试，确定最终的可视化降维模型；

步骤S5所述利用测试集T对图神经网络模型进行测试的过程包括：

S51.确认高维数据集中的标签信息；

S52.将测试集T＝{T₁，T₂，...，T_N′}通过训练好的GNN图神经网络模型进行降维，得到降维后的测试集T′＝{T′₁，T′₂，...，T′_N′}；

S53.利用k邻近邻居分类算法测试数据集T′的可视化效果：

确定测试节点i的k邻近邻居集合N(T′_i)＝{T′_i1，T′_i2，...，T′_ik}；

通过k邻近邻居集合N(T′_i)计算出节点T′_i得到标签，判断是否与节点T′_i的原分类标签是否一致，若是，GNN图神经网络模型为最终的可视化降维模型；否则，返回S4继续训练GNN图神经网络模型；

步骤S5所述利用测试集T对图神经网络模型进行测试的过程还包括高维数据集中未含标签信息的测试；过程为：

S501.将测试集T＝{T₁，T₂，...，T_N′}通过训练好的GNN图神经网络模型进行降维，得到降维后的测试集T′＝{T′₁，T′₂，...，T′_N′}；

S502.设测试集T＝{T₁，T₂，...，T_N′}的秩为ρ，计算满足：

ρ_ij＝|{k：δ_ik＜δ_ijor(δ_ik＝δ_ijand k＜j)}|

δ_ij＝||T_i-T_j||²

其中，|·|表示集合的基数，δ_ij表示降维前高维测试集节点i与高维节点j的距离；

降维后的测试集T′＝{T′₁，T′₂，...，T′_N′}的秩为r，计算满足：

d_ij＝||T′_i-T′_j||²

其中，d_ij表示低维节点i与低维节点j的距离；

S503.将降维前高维测试集的秩为ρ与降维后的秩r对比，利用co-ranking技术确认降维前高维测试集与降维后数据的相似度，判断相似度是否满足K标准，若是，GNN图神经网络模型为最终的可视化降维模型；否则，返回S4继续训练GNN图神经网络模型；

S6.将待降维的大规模数据集输入可视化降维模型，进行可视化降维。

2.根据权利要求1所述的基于图神经网络的大规模数据可视化降维方法，其特征在于，步骤S3所述的构建GNN图神经网络模型的过程为：

S31.确定GNN图神经网络模型的超参数，包括隐藏层的维度h、神经网络的深度H及学习速率γ；

S32.将高维数据集D及高维数据集的异构图G_H＝(E_H，V_H)作为GNN图神经网络模型的输入，选定神经网络模型参数W＝{w₁，w₂，...，w_H}，其中，w_v表示GNN图神经网络第v层隐藏层的可训练参数；

S33.构建出GNN图神经网络模型f_GNN(G_H，D，W)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东工业大学，未经广东工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011258545.4/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于图神经网络的大规模数据可视化降维方法有效

专利文献下载