[发明专利]一种基于多视图多层注意力的面向学术论文的分类方法在审

专利信息
申请号: 202110866447.7 申请日: 2021-07-29
公开(公告)号: CN113918711A 公开(公告)日: 2022-01-11
发明(设计)人: 张勇;张鹏宇;胡永利;尹宝才 申请(专利权)人: 北京工业大学
主分类号: G06F16/35 分类号: G06F16/35;G06N3/04
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 视图 多层 注意力 面向 学术论文 分类 方法
【权利要求书】:

1.一种基于多视图多层注意力的面向学术论文的分类方法,其特征在于包括以下步骤:

步骤1:设计能够学到更准确的节点表示的多视图输入模块

(1)构建特征矩阵X:从论文数据集中提取出论文名、论文关键词以及论文发表年份和发表期刊作为节点特征;然后,利用节点特征构建节点特征矩阵X,因为数据集中存在4000个节点,则X为4000*4000维由0或1构成的矩阵,矩阵内容先由程序随机输出0或1,然后通过模型训练算法学习最佳节点特征,学习最佳节点特征的方法为通过最小化步骤4中损失函数来实现;xi∈X代表在特征矩阵X中第i个节点的特征向量;

(2)构建节点特征矩阵Ak,具体为:

①利用节点特征矩阵X来计算节点i和节点j的相似矩阵Sij

其中,xi和xj是节点i和节点j的特征向量;|xi|与|xj|为这两个向量的模,即仅代表此向量的长度,不包括方向和位置信息;

②根据节点之间的相似矩阵Sij来计算节点之间是否存在联系,从而构建出基于节点特征的k近邻图作为特征矩阵Ak,计算方法为在数据集中找出与节点i最相近的k个节点,作为与节点i有联系的节点;

(3)构建节点关系矩阵:多视图的关系矩阵表示为Am;A为由0和1组成的矩阵,代表数据集中每个节点之间的关系,视图中节点i与节点j存在联系,则在此视图的矩阵中,第i行第j列的数值为1;视图中节点i与节点j不存在联系,则在此视图的矩阵中,第i行第j列的数值为0;m为视图的个数,在论文数据集中,节点为论文,节点之间存在的3种关系分别为:两篇论文共同参会,用A1表示;两篇论文使用同一关键词,用A2表示;两篇论文存在共同作者,用A3表示,A1,A2,A3分别为独立的矩阵;

(4)单视图卷积:在卷积模块中,输入分别由特征矩阵X、节点特征矩阵Ak、节点关系矩阵Am组成;第1个输入为节点特征图Gk=(Ak,X),第2个以后的输入为节点关系图Gm=(Am,X),每一个输入都配备一个专属的卷积模块,单视图卷积模块的输出分别为Zk和Zm;在论文数据集中,节点为论文,节点之间存在的3种关系分别用A1,A2,A3表示,则Gm分别为G1,G2,G3,Zm分别为Z1,Z2,Z3;卷积的第l层的输出可以表示为:

其中,W(l)为GCN第l层的权重矩阵,权重矩阵为独立的矩阵,先由程序随机给出权重矩阵中的数值,然后通过模型训练算法学习最佳的权重值,学习最佳权重值的方法通过最小化步骤4中损失函数来实现,初始的Z即Z(0)=X,I为单位矩阵为的对角矩阵,为的对角矩阵,ReLU为本公式使用到的激活函数,ReLU=max(0,x);

(5)多视图卷积:多视图卷积模块的输出为Zc,其中第l层的卷积输出为:

其中,W(l)为第l层GCN的权重矩阵,权重矩阵为独立的矩阵,先由程序随机给出权重矩阵中的数值,然后通过模型训练算法学习最佳的权重值,学习最佳权重值的方法通过最小化步骤4中损失函数来实现,初始的Z即Z(0)=X,A为将Ak与Am拼接之后得到的向量,是的对角矩阵,ReLU为本公式使用到的激活函数,ReLU=max(0,x);

步骤2:设计能够减缓过平滑问题的自动编码器模块

(1)使用自动编码器提取节点表示,在自动编码器中第l层学到的表示为

其中,为自动编码器中第l层的权重矩阵,为自动编码器中第l层的偏差,权重矩阵和偏差为独立的矩阵,先由程序随机给出数值,然后通过模型训练算法学习最佳的权重值与偏差值,学习最佳权重值与偏差值的方法通过最小化步骤4中损失函数来实现,为特征矩阵X,ReLU为本公式使用到的激活函数,ReLU=max(0,x);

(2)使用自动解码器还原节点表示,在自动解码器中第l层学到的表示为

其中,为自动编码器中第l层的权重矩阵,为自动编码器中第l层的偏差,权重矩阵和偏差为独立的矩阵,先由程序随机给出数值,然后通过模型训练算法学习最佳的权重值与偏差值,学习最佳权重值与偏差值的方法通过最小化步骤4中损失函数来实现,为ReLU为本公式使用到的激活函数,ReLU=max(0,x);

(3)将节点表示传入GCN模块,因为自动编码器学习到的表示可以重构数据本身,并且包含不同的有价值的信息;所以将两种表示结合起来,用表示:

其中,为特征矩阵X在GCN中第l层的表示,为在自动编码器中第l层学到的表示;通过这种方式,将自动编码器和GCN逐层连接起来;

步骤3:设计能够融合多视图信息的多层注意力模块

(1)构建单视图内的注意力层,具体为:

①利用自注意力机制来学习各个节点之间的权重;在同一视图中,给定一对节点(i,j),可以计算出节点j对与节点i的重要程度;并得到同视图内中心节点与邻居节点间的重要性:

公式中,αij为节点j对与节点i的重要程度系数;xi,xj,xk分别为节点i,j,k的节点特征;k∈N为与节点i相连的N个邻居节点中,逐一将所有邻居节点的影响相加;||表示连接操作,及将两个特征向量拼接到一起,向量维数会随之增加;aT为神经网络链接层与层之间的权重矩阵的转置矩阵,先由程序随机给出数值,然后通过模型训练算法学习最佳的权重矩阵,学习最佳权重矩阵通过最小化步骤4中损失函数来实现;LeakyReLU为本公式使用到的激活函数,LeakyReLU=max(0.2x,x);

②重复以上单视图注意力层K次,将学习到的嵌入连接为特定视图的嵌入;并将学到的节点嵌入与节点特征矩阵进行拼接;

公式中,zi为学习到的节点i的嵌入;αij为节点j对与节点i的重要程度系数;xj为节点j的节点特征;为多头注意力当中的机制,即设置K个函数,每个函数都能计算出不同的注意力系数,并计算出一组加权求和用的系数,最后将多个结果连接在一起,得到卷积的结果;Sigmoid为本公式使用到的激活函数,数学形式为

(2)构建多视图之间的注意力层,具体为:

①将上一步GCN的输出作为此步输入,即输入为单视图图卷积Zk,Zm和多视图卷积Zc,不同权重为互相独立的数字;对于节点i,在同一视图内,对节点嵌入进行非线性变换,然后使用如下公式来计算注意力权重;

公式中,分别为不同视图下的注意力权重;Wk,Wm,Wc为不同视图的相互独立的权重矩阵,先由程序随机给出权重矩阵中的数值,然后通过模型训练算法学习最佳的权重值,学习最佳权重值的方法通过最小化步骤4中损失函数来实现;b是偏差向量;q为注意力向量,用来测量节点嵌入的重要性;为在卷积输出矩阵Zk,Zm和Zc中,第i行向量,代表第i个节点的节点特征;上角标T为对矩阵进行转置运算;

②对进行归一化,得到节点i的最终权重;

公式中,分别为节点i在不同视图中的最终注意力权重;分别为节点i 在不同视图下的注意力权重;

③将三种嵌入相结合,得到最终的嵌入;其中越大代表此视图越重要;

Z=αk·Zkm·Zmc·Zc

公式中,Zk,Zm,Zc为卷积层的输出;αk,αm,αc为每种视图中的注意力权重;Z为最终输出的节点嵌入;

步骤4:设计损失函数

(1)尽可能使卷积学习到不同的节点表示,即增加Zk,Zm,Zc之间的不同;公式为:

HSIC(Zk,Zm)=(n-1)-2tr(RKkRKm)

HSIC(Zk,Zc)=(n-1)-2tr(RKkRKc)

HSIC(Zc,Zm)=(n-1)-2tr(RKcRKm)

公式中,HSIC为希尔伯特施密特独立性准则,主要目的是衡量两个变量之间的差异;Kk,Km,Kc是格拉姆矩阵,此处的格拉姆矩阵是由两个向量经过内积运算所组成的矩阵,体现了两个向量的关系,需经过内积运算的向量分别为n为步骤1中构建节点特征矩阵时节点邻居节点的数量,I是单位矩阵且e是全为1的列向量;

最终单视图的损失函数为Ls

Ls=HSIC(Zk,Zm)+HSIC(Zk,Zc)+HSIC(Zc,Zm)

(2)因为模型希望两个相似性矩阵尽可能相似,多视图损失函数为Lm

Lm=||Sk-Sm||2+||Sk-Sc||2+||Sc-Sm||2

公式中,S为节点之间的相似度,计算方法为:其中Znor为卷积输出Z经过L2归一化之后的矩阵;||Sk-Sm||2目的为最小化两个矩阵之间的差异;

(3)考虑到解码器的输出是对原始数据进行重构,故重构损失函数为Lres

公式中,X为原始的特征矩阵;为经过自动解码器还原的特征矩阵即步骤2中的的目的为最小化经过还原的矩阵与原始输入的矩阵之间的差异;

(4)对未知节点属于哪一类进行预测,预测结果为

公式中,softmax为分类函数,用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,从而来进行多分类是所有类的规范化;W为步骤1中计算出的权重矩阵;b为步骤1中计算出的偏差向量;Z为步骤3计算出的节点最终嵌入矩阵;

接下来,预测损失为:

公式中,节点真实标签是Y;预测标签是为对数据集中每一个视图,以及每个视图中每个节点都分类别进行标签的预测,最终使预测误差尽可能小;

(5)最终损失函数为L:

L=Lt+0.01Lm+0.001Ls+0.001Lres

公式中,Lt为预测损失;Lm为多视图损失;Ls为单视图损失;Lres为重构损失。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110866447.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top