[发明专利]一种基于图神经网络的大规模数据可视化降维方法有效

专利信息
申请号: 202011258545.4 申请日: 2020-11-12
公开(公告)号: CN112241478B 公开(公告)日: 2023-05-30
发明(设计)人: 杨易扬;张景彬;任成森;巩志国;蔡瑞初;郝志峰;陈炳丰 申请(专利权)人: 广东工业大学
主分类号: G06F16/904 分类号: G06F16/904;G06N3/04;G06N3/084
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 张金福
地址: 510090 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 神经网络 大规模 数据 可视化 方法
【权利要求书】:

1.一种基于图神经网络的大规模数据可视化降维方法,其特征在于,包括:

S1.获取高维数据集,对高维数据集进行预处理;

所述高维数据集包括词向量数据集和图形像素数据集,设高维数据集表示为D={D1,D2,...Di,...,DN},D∈Rd,R表示实数,Di表示第i个维度为d的向量,对高维数据集进行的预处理操作包括正则化处理;

S2.构建高维数据集的异构图;

步骤S2所述构建高维数据集的异构图的过程包括:利用高维数据集中已存在的异构图信息直接组成异构图或高维数据集中不存在异构图信息,构建高维数据集的KNN图;

所述利用高维数据集中已存在的异构图信息直接组成异构图的表达式为:

GH=(EH,VH)

其中,GH表示高维数据集的异构图,VH表示异构图的节点集合,VH中第i个节点vi对应的高维数据集的第一个向量D1;EH表示异构图的边,若节点vi与节点vj在异构图中存在边,则(vi,vj)∈EH

S3.构建GNN图神经网络模型,将高维数据集及异构图作为输入,输出降维后的可视化向量;

S4.将高维数据集划分为测试集T和训练集S,构建图神经网络模型的损失函数,利用训练集S训练GNN图神经网络模型;

步骤S4所述构建图神经网络模型的损失函数面向的算法包括于t-SNE算法、UMAP算法及LargeVis算法,通过GNN图神经网络模型fGNN(GH,D,W)得到与输入高维数据集D={D1,D2,...,DN}对应降维后的y维可视化向量D′={D′1,D′2,...,D′N},其中D′∈Ry,y=2或3;

面向t-SNE算法构建的第一损失函数OFt-SNE满足:

其中,qij为中间概率,且为整数;

构建异构图的过程中获得高维数据集的概率分布P,表示为:

其中,pij表示节点Di的附近出现节点Dj的概率;k,l表示不同于i、j的数值编号;

面向UMAP算法构建的第二损失函数OFUMAP满足:

其中,β、u均为大于零的实数;

面向LargeVis算法构建的第三损失函数OFLargeVis满足:

其中,EH为异构图的边集合,δ为大于0的实数,表示在选定的数据节点Dj的情况下,节点Dk被选中的概率;

利用训练集S训练GNN图神经网络模型的过程为:

S41.基于第一损失函数OFt-SNE、第二损失函数OFUMAP及第三损失函数OFLargeVis,确定损失函数值OF;

S42.利用神经网络残差反向传播技术,计算GNN图神经网络模型中的所有节点残差,更新网络中的参数W={w1,w2,...,wH};

S43.存在收敛值E,判断损失函数值OF是否满足:

|OF-E|≤ε是否成立,ε表示足够小的正数,若是,训练结束;否则,返回步骤S41;

S5.GNN图神经网络模型训练完成后,利用测试集T对图神经网络模型进行测试,确定最终的可视化降维模型;

步骤S5所述利用测试集T对图神经网络模型进行测试的过程包括:

S51.确认高维数据集中的标签信息;

S52.将测试集T={T1,T2,...,TN′}通过训练好的GNN图神经网络模型进行降维,得到降维后的测试集T′={T′1,T′2,...,T′N′};

S53.利用k邻近邻居分类算法测试数据集T′的可视化效果:

确定测试节点i的k邻近邻居集合N(T′i)={T′i1,T′i2,...,T′ik};

通过k邻近邻居集合N(T′i)计算出节点T′i得到标签,判断是否与节点T′i的原分类标签是否一致,若是,GNN图神经网络模型为最终的可视化降维模型;否则,返回S4继续训练GNN图神经网络模型;

步骤S5所述利用测试集T对图神经网络模型进行测试的过程还包括高维数据集中未含标签信息的测试;过程为:

S501.将测试集T={T1,T2,...,TN′}通过训练好的GNN图神经网络模型进行降维,得到降维后的测试集T′={T′1,T′2,...,T′N′};

S502.设测试集T={T1,T2,...,TN′}的秩为ρ,计算满足:

ρij=|{k:δik<δijor(δik=δijand k<j)}|

δij=||Ti-Tj||2

其中,|·|表示集合的基数,δij表示降维前高维测试集节点i与高维节点j的距离;

降维后的测试集T′={T′1,T′2,...,T′N′}的秩为r,计算满足:

dij=||T′i-T′j||2

其中,dij表示低维节点i与低维节点j的距离;

S503.将降维前高维测试集的秩为ρ与降维后的秩r对比,利用co-ranking技术确认降维前高维测试集与降维后数据的相似度,判断相似度是否满足K标准,若是,GNN图神经网络模型为最终的可视化降维模型;否则,返回S4继续训练GNN图神经网络模型;

S6.将待降维的大规模数据集输入可视化降维模型,进行可视化降维。

2.根据权利要求1所述的基于图神经网络的大规模数据可视化降维方法,其特征在于,步骤S3所述的构建GNN图神经网络模型的过程为:

S31.确定GNN图神经网络模型的超参数,包括隐藏层的维度h、神经网络的深度H及学习速率γ;

S32.将高维数据集D及高维数据集的异构图GH=(EH,VH)作为GNN图神经网络模型的输入,选定神经网络模型参数W={w1,w2,...,wH},其中,wv表示GNN图神经网络第v层隐藏层的可训练参数;

S33.构建出GNN图神经网络模型fGNN(GH,D,W)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011258545.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top