[发明专利]一种基于多视图多层注意力的面向学术论文的分类方法在审

申请号：	202110866447.7	申请日：	2021-07-29
公开（公告）号：	CN113918711A	公开（公告）日：	2022-01-11
发明（设计）人：	张勇;张鹏宇;胡永利;尹宝才	申请（专利权）人：	北京工业大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/04
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于视图多层注意力面向学术论文分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多视图多层注意力的面向学术论文的分类方法，其特征在于包括以下步骤：

步骤1：设计能够学到更准确的节点表示的多视图输入模块

(1)构建特征矩阵X：从论文数据集中提取出论文名、论文关键词以及论文发表年份和发表期刊作为节点特征；然后，利用节点特征构建节点特征矩阵X，因为数据集中存在4000个节点，则X为4000*4000维由0或1构成的矩阵，矩阵内容先由程序随机输出0或1，然后通过模型训练算法学习最佳节点特征，学习最佳节点特征的方法为通过最小化步骤4中损失函数来实现；x_i∈X代表在特征矩阵X中第i个节点的特征向量；

(2)构建节点特征矩阵A_k，具体为：

①利用节点特征矩阵X来计算节点i和节点j的相似矩阵S_ij；

其中，x_i和x_j是节点i和节点j的特征向量；|x_i|与|x_j|为这两个向量的模，即仅代表此向量的长度，不包括方向和位置信息；

②根据节点之间的相似矩阵S_ij来计算节点之间是否存在联系，从而构建出基于节点特征的k近邻图作为特征矩阵A_k，计算方法为在数据集中找出与节点i最相近的k个节点，作为与节点i有联系的节点；

(3)构建节点关系矩阵：多视图的关系矩阵表示为A_m；A为由0和1组成的矩阵，代表数据集中每个节点之间的关系，视图中节点i与节点j存在联系，则在此视图的矩阵中，第i行第j列的数值为1；视图中节点i与节点j不存在联系，则在此视图的矩阵中，第i行第j列的数值为0；m为视图的个数，在论文数据集中，节点为论文，节点之间存在的3种关系分别为：两篇论文共同参会，用A₁表示；两篇论文使用同一关键词，用A₂表示；两篇论文存在共同作者，用A₃表示，A₁，A₂，A₃分别为独立的矩阵；

(4)单视图卷积：在卷积模块中，输入分别由特征矩阵X、节点特征矩阵A_k、节点关系矩阵A_m组成；第1个输入为节点特征图G_k＝(A_k，X)，第2个以后的输入为节点关系图G_m＝(A_m，X)，每一个输入都配备一个专属的卷积模块，单视图卷积模块的输出分别为Z_k和Z_m；在论文数据集中，节点为论文，节点之间存在的3种关系分别用A₁，A₂，A₃表示，则G_m分别为G₁，G₂，G₃，Z_m分别为Z₁，Z₂，Z₃；卷积的第l层的输出可以表示为：

其中，W^(l)为GCN第l层的权重矩阵，权重矩阵为独立的矩阵，先由程序随机给出权重矩阵中的数值，然后通过模型训练算法学习最佳的权重值，学习最佳权重值的方法通过最小化步骤4中损失函数来实现，初始的Z即Z⁽⁰⁾＝X，I为单位矩阵为的对角矩阵，为的对角矩阵，ReLU为本公式使用到的激活函数，ReLU＝max(0，x)；

(5)多视图卷积：多视图卷积模块的输出为Z_c，其中第l层的卷积输出为：

其中，W^(l)为第l层GCN的权重矩阵，权重矩阵为独立的矩阵，先由程序随机给出权重矩阵中的数值，然后通过模型训练算法学习最佳的权重值，学习最佳权重值的方法通过最小化步骤4中损失函数来实现，初始的Z即Z⁽⁰⁾＝X，A为将A_k与A_m拼接之后得到的向量，是的对角矩阵，ReLU为本公式使用到的激活函数，ReLU＝max(0，x)；

步骤2：设计能够减缓过平滑问题的自动编码器模块

(1)使用自动编码器提取节点表示，在自动编码器中第l层学到的表示为

其中，为自动编码器中第l层的权重矩阵，为自动编码器中第l层的偏差，权重矩阵和偏差为独立的矩阵，先由程序随机给出数值，然后通过模型训练算法学习最佳的权重值与偏差值，学习最佳权重值与偏差值的方法通过最小化步骤4中损失函数来实现，为特征矩阵X，ReLU为本公式使用到的激活函数，ReLU＝max(0，x)；

(2)使用自动解码器还原节点表示，在自动解码器中第l层学到的表示为

其中，为自动编码器中第l层的权重矩阵，为自动编码器中第l层的偏差，权重矩阵和偏差为独立的矩阵，先由程序随机给出数值，然后通过模型训练算法学习最佳的权重值与偏差值，学习最佳权重值与偏差值的方法通过最小化步骤4中损失函数来实现，为ReLU为本公式使用到的激活函数，ReLU＝max(0，x)；

(3)将节点表示传入GCN模块，因为自动编码器学习到的表示可以重构数据本身，并且包含不同的有价值的信息；所以将两种表示结合起来，用表示：

其中，为特征矩阵X在GCN中第l层的表示，为在自动编码器中第l层学到的表示；通过这种方式，将自动编码器和GCN逐层连接起来；

步骤3：设计能够融合多视图信息的多层注意力模块

(1)构建单视图内的注意力层，具体为：

①利用自注意力机制来学习各个节点之间的权重；在同一视图中，给定一对节点(i，j)，可以计算出节点j对与节点i的重要程度；并得到同视图内中心节点与邻居节点间的重要性：

公式中，α_ij为节点j对与节点i的重要程度系数；x_i，x_j，x_k分别为节点i，j，k的节点特征；k∈N为与节点i相连的N个邻居节点中，逐一将所有邻居节点的影响相加；||表示连接操作，及将两个特征向量拼接到一起，向量维数会随之增加；a^T为神经网络链接层与层之间的权重矩阵的转置矩阵，先由程序随机给出数值，然后通过模型训练算法学习最佳的权重矩阵，学习最佳权重矩阵通过最小化步骤4中损失函数来实现；LeakyReLU为本公式使用到的激活函数，LeakyReLU＝max(0.2x，x)；

②重复以上单视图注意力层K次，将学习到的嵌入连接为特定视图的嵌入；并将学到的节点嵌入与节点特征矩阵进行拼接；

公式中，z_i为学习到的节点i的嵌入；α_ij为节点j对与节点i的重要程度系数；x_j为节点j的节点特征；为多头注意力当中的机制，即设置K个函数，每个函数都能计算出不同的注意力系数，并计算出一组加权求和用的系数，最后将多个结果连接在一起，得到卷积的结果；Sigmoid为本公式使用到的激活函数，数学形式为

(2)构建多视图之间的注意力层，具体为：

①将上一步GCN的输出作为此步输入，即输入为单视图图卷积Z_k，Z_m和多视图卷积Z_c，不同权重为互相独立的数字；对于节点i，在同一视图内，对节点嵌入进行非线性变换，然后使用如下公式来计算注意力权重；

公式中，分别为不同视图下的注意力权重；W_k，W_m，W_c为不同视图的相互独立的权重矩阵，先由程序随机给出权重矩阵中的数值，然后通过模型训练算法学习最佳的权重值，学习最佳权重值的方法通过最小化步骤4中损失函数来实现；b是偏差向量；q为注意力向量，用来测量节点嵌入的重要性；为在卷积输出矩阵Z_k，Z_m和Z_c中，第i行向量，代表第i个节点的节点特征；上角标T为对矩阵进行转置运算；

②对进行归一化，得到节点i的最终权重；

公式中，分别为节点i在不同视图中的最终注意力权重；分别为节点i 在不同视图下的注意力权重；

③将三种嵌入相结合，得到最终的嵌入；其中越大代表此视图越重要；

Z＝α_k·Z_k+α_m·Z_m+α_c·Z_c

公式中，Z_k，Z_m，Z_c为卷积层的输出；α_k，α_m，α_c为每种视图中的注意力权重；Z为最终输出的节点嵌入；

步骤4：设计损失函数

(1)尽可能使卷积学习到不同的节点表示，即增加Z_k，Z_m，Z_c之间的不同；公式为：

HSIC(Z_k，Z_m)＝(n-1)^-2tr(RK_kRK_m)

HSIC(Z_k，Z_c)＝(n-1)^-2tr(RK_kRK_c)

HSIC(Z_c，Z_m)＝(n-1)^-2tr(RK_cRK_m)

公式中，HSIC为希尔伯特施密特独立性准则，主要目的是衡量两个变量之间的差异；K_k，K_m，K_c是格拉姆矩阵，此处的格拉姆矩阵是由两个向量经过内积运算所组成的矩阵，体现了两个向量的关系，需经过内积运算的向量分别为n为步骤1中构建节点特征矩阵时节点邻居节点的数量，I是单位矩阵且e是全为1的列向量；

最终单视图的损失函数为L_s：

L_s＝HSIC(Z_k，Z_m)+HSIC(Z_k，Z_c)+HSIC(Z_c，Z_m)

(2)因为模型希望两个相似性矩阵尽可能相似，多视图损失函数为L_m：

L_m＝||S_k-S_m||²+||S_k-S_c||²+||S_c-S_m||²

公式中，S为节点之间的相似度，计算方法为：其中Z_nor为卷积输出Z经过L2归一化之后的矩阵；||S_k-S_m||²目的为最小化两个矩阵之间的差异；

(3)考虑到解码器的输出是对原始数据进行重构，故重构损失函数为L_res：

公式中，X为原始的特征矩阵；为经过自动解码器还原的特征矩阵即步骤2中的的目的为最小化经过还原的矩阵与原始输入的矩阵之间的差异；

(4)对未知节点属于哪一类进行预测，预测结果为

公式中，softmax为分类函数，用于多分类过程中，它将多个神经元的输出，映射到(0，1)区间内，从而来进行多分类是所有类的规范化；W为步骤1中计算出的权重矩阵；b为步骤1中计算出的偏差向量；Z为步骤3计算出的节点最终嵌入矩阵；

接下来，预测损失为：

公式中，节点真实标签是Y；预测标签是为对数据集中每一个视图，以及每个视图中每个节点都分类别进行标签的预测，最终使预测误差尽可能小；

(5)最终损失函数为L：