[发明专利]基于超图卷积的超边链接预测方法有效
申请号: | 202011276695.8 | 申请日: | 2020-11-16 |
公开(公告)号: | CN112417219B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 王英;杨伟英;王鑫;左万利;贾天浩;郝琳琳 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06N3/04;G06N3/08 |
代理公司: | 长春市恒誉专利代理事务所(普通合伙) 22212 | 代理人: | 李荣武 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 超图 卷积 链接 预测 方法 | ||
1.一种基于超图卷积的超边链接预测方法,包括四个主要模块:数据预处理模块、超图卷积自动编码器模块、节点邻近度函数模块;超边链接预测模块,实现步骤如下:
(1)首先,将异质信息网络组织成超图网络,并将超图邻接矩阵及特征矩阵作为输入;
1)对于给定的异质信息网络,通过三元组将异质信息网络抽成超边,超边连接形成超图网络;方法应用于Movielens数据集,其包括三种类型的节点u,m,t,u表示用户,m表示电影,t表示用户在某个时间为某个电影标记的标签,在真实世界的的网络中,用户经常给电影进行标签标记很显然,这种关系是不可分割的;然而,针对只研究成对关系的网络表示学习模型在处理该类问题时,往往不能完全地学习到这种潜在的高阶关联关系,因此,充分考虑了这种不可分割的多元关联关系,将其采用超边表示并建模为一个三元组表示;用户u1将电影m1标记为t2,将该事件定义为一条不可分割的超边u1,m1,t2;
2)从超图角度出发,对于给定的超图网络其中,是超图网络的有限节点集,E={E1,E2,...,Ei}为超边集合,对于任意一条超边Ei∈E是节点集的一个子集;经过数据预处理之后,得到超图网络的邻接矩阵M,进一步引入节点特征矩阵X|N|*|D|和随机隐层变量Zi∈Z|N|*|F|,其中,N为节点数,D为节点的特征维度,F为隐层表示变量的维度,将超图网络邻接矩阵M和特征矩阵X作为超图卷积自编码器的输入;
(2)其次,融合超图卷积实现超图卷积自动编码器,聚集其近邻特征,保留其二阶近邻性,同时加入节点近邻度函数,学习节点的一阶近邻性;
1)图自动编码器模型
图自动编码器(Autoencoder)模型是超图卷积自动编码器的基础,由编码器(Encoder)和解码器(Decoder)两部分组成,编码器采用2层GCN实现,解码器由隐层变量的內积实现,解码器输出由Zt=q(Zt-1|Xt,Mt)给出:
其中,t为节点类型,Mt表示t类型节点的邻接矩阵,Zt表示t类型节点的隐层表示向量,W为参数;
经过编码器得到的隐层表示将会作为解码器的输入,进而重建邻接矩阵,具体公式表述为:
为重建后的邻接矩阵,对于原始矩阵M和重构矩阵采用损失函数进行训练,其定义如下:
2)超图卷积
通过重新定义超图卷积(HGCN)函数将图自动编码器中的编码器部分进行改进提出超图自动编码器,超图自动编码器的编码部分设计为两层超图卷积网络HGCN(HypergraphConvolutional Network),通过利用神经网络将图结构直接嵌入到低维空间中,对于给定的超图H=(M,X),其中,M是邻接矩阵,X是特征矩阵,超图上的卷积网络实际上是一个谱图卷积运算,用函数表示:H=(M,X)
其中,是t类型节点经过lth卷积后对应的节点的输出特征,Wl是lth的参数;
传统的图卷积网络通过图的拉普拉斯矩阵的特征值和特征向量来研究图的性质,对于一个有N个节点的图G而言,其经过对称归一化的拉普拉斯矩阵Λ定义为:
其中,D是G的度矩阵,A是维度为N×N的邻接矩阵,而在超图上的拉普拉斯矩阵定义为:
其中,D是超图的度矩阵,I为单位矩阵;
基于上述操作,可以定义任意深度网络,然而,在上述公式中存在部分节点未参与传播过程,并且其信息也不会被邻居节点更新的情况,为了克服这一问题,令表示加入自环的原始异质信息网络,因此,重新定义了超图卷积函数:
其中,σ是激活函数,Θ作为卷积核其值在训练过程中不断被更新;
3)超图卷积自动编码器
超图卷积自动编码器是在第(1)节的基础上的拓展,其最大的特点是首先做了一个预设,即编码的结果不是某个确定的值,而是一个范围,在这里使用的是平均值和方差,即多个节点编码结果值,平均分布在均值两侧的方差范围内,超图卷积自动编码器由两部分组成:推理(Inference model)模型和生成模型(Generative model),与图自动编码器相比,其变分过程主要体现在推理模型中;
推理模型:通过进行推理,得到隐层变量Z,主要是通过一个函数f得到均值向量μ和方差σ2,在这里函数f被定义为两层HGCN(3.2.3),推理模型可用公式表述为:
μt=HGCNμ(Xt,Mt)
σt=HGCNσ(Xt,Mt)
对于每一个输入i:
其中,
p(·)表示为一个概率值,符合高斯分布;
生成模型:在得到隐层变量Z之后,将通过生成模型来重构邻接矩阵对于这部分,使用内积来重构矩阵中的每个元素得到重构邻接矩阵
其中,
在这里生成模型的概率分布q(·)是由内积给出的,σ表示为sigmoid函数;
学习过程:将学习过程中的损失函数分为两部分:构造损失和隐层变量约束损失,构造损失是看构造的邻接矩阵是否与输入矩阵相似;另一个损失是利用KL散度来衡量隐层变量的分布与正态分布的相似程度,为了训练超图卷积自动编码器,优化了变分下界目标函数定义如下:
其中,KL(q(·)||p(·))定义了KL散度,进一步取高斯先验分p(Z)=Πip(Zi)=ΠiN(Z|0,I);
超图卷积自动编码器的目标是最小化输入和输出之间的重新测量误差,重建过程将使具有相似邻域的节点具有相似的隐层表示,从而保留二阶邻近性,由于输入特征是超图网络的邻接矩阵,而邻接矩阵通常是非常稀疏的,为了加速模型,提出只重构邻接矩阵中的非零元素,重构误差如下所示:
其中,sign是符号函数,表示Hadamard积;
此外,在超图网络中,节点往往具有多种类型,形成了异构的超图网络,考虑到不同类型节点的特殊性,需要学习不同类型节点的唯一隐层空间,在本模型中,每个异构类型的实体都有对应的低维表示,那么对于所有类型的节点,损失函数定义为:
同一超边内的节点具有高度的一阶近邻性,可以学习到节点的局部邻域特征,生成更鲁棒的表示,因此,采用多层感知机实现节点近邻度函数的建模,采用两个全连接层实现,以a、b、c三种类型的节点为例,将3个节点(vi,vj,vk)的嵌入串联起来作为多层感知机的输入,最终将其映射到概率空间中,得到近邻度:
其中,σ为sigmoid函数,最终,优化目标函数如下:
为了保持超图网络的一阶邻近性和二阶邻近性,联合最小化模型的目标函数表示为:
(3)最后,将学习到的隐层表示向量应用于超边链接预测任务,挖掘其潜在的超边链接关系,其评价指标如下:
链接预测的准确率主要体现为预测正例负例概率值,在中采用常见的模型评估指标AUC和AP用于作为链接预测的评价指标,其主要基于混淆矩阵计算真正率和假正率,然后通过ROC面积来衡量链接预测的准确率;
测试集上每个模型的ROC曲线下的面积AUC和平均精度AP分数,其公式如下:
其中,E是超边集合,NE为正样本数目,为负样本的数目;ranke为通过预测得分来表示的超边的排名;
其中,Precision表示正确预测的超边数/总超边数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011276695.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种泥浆漏失风险评估方法及装置
- 下一篇:一种新型防火排烟阀门