[发明专利]一种基于对偶的序列到序列生成的论文网络表示学习方法有效
申请号: | 201911300281.1 | 申请日: | 2019-12-17 |
公开(公告)号: | CN111104797B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 刘杰;李娜;何志成 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/289;G06F40/30;G06F40/58 |
代理公司: | 天津耀达律师事务所 12223 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对偶 序列 生成 论文 网络 表示 学习方法 | ||
1.一种基于对偶的序列到序列生成的论文网络表示学习方法,其特征在于,包括以下步骤:
步骤1)论文平行序列生成部分
采用随机游走方法对论文网络进行游走,得到论文节点序列,由于论文网络中每个论文都有论文编号和论文文本内容两种信息,因此每个游走得到的论文节点序列对应有两种包含不同信息的序列,分别为论文节点标识序列和论文节点内容序列,这两种序列为一组平行序列;
步骤2)用于实现从论文节点内容序列映射到论文节点标识序列的论文节点识别部分
步骤2.1)论文节点识别部分的论文内容嵌入
对于每个论文节点的文本内容,首先将文本分词,随机初始化每个词向量,然后采用卷积神经网络CNN来捕获论文节点的文本内容信息,每个论文节点都得到对应的论文节点语义特征;
步骤2.2)论文节点识别部分的论文节点内容序列编码
采用双向长短期记忆网络Bi-LSTM来对论文节点内容序列进行编码,将序列编码为上下文特征表示,采用Bi-LSTM是为了捕获论文序列的正反向信息,编码得到的语义表示向量包含了整个论文节点内容序列的语义信息以及序列中隐含的论文节点间的结构信息,即论文间的引用关系;
步骤2.3)论文节点识别部分的论文节点标识序列生成
将编码得到的语义表示向量经过长短期记忆网络LSTM进行解码,并将解码之后的向量映射到论文节点标识空间中,完成论文节点标识序列的生成过程;
步骤3)用于实现从论文节点标识序列映射到论文节点内容序列的论文内容生成部分
步骤3.1)论文内容生成部分的论文节点标识嵌入
采用一个论文节点标识嵌入层,通过查寻论文节点的初始化嵌入矩阵来获取论文节点标识序列中不同论文节点标识的向量表示;
步骤3.2)论文内容生成部分的论文节点标识序列编码
采用Bi-LSTM对论文节点标识序列进行编码,根据论文节点之间的序列结构信息即论文间的引用关系,将论文节点标识序列编码为上下文特征表示,作为后续的语义解码过程的输入;
步骤3.3)论文内容生成部分的论文语义解码
在生成论文节点内容前,需要对上下文特征表示进行解码,得到论文语义特征序列,用于衔接论文网络结构与论文节点内容这两种模态空间,解码器采用LSTM;
步骤3.4)论文内容生成部分的论文内容生成
采用经典的LSTM对论文语义特征序列中的每个论文节点的语义表征生成文本内容,即单词序列;
步骤4)对偶融合论文节点识别部分和论文内容生成部分
通过论文节点识别部分和论文内容生成部分的中间隐藏层的共享,使两个部分同时进行学习,采用线性融合的方式将步骤2.2)和步骤3.2)得到的上下文特征表示进行融合。
2.根据权利要求1所述的一种基于对偶的序列到序列生成的论文网络表示学习方法,其特征在于,步骤1)所述论文平行序列生成部分方法如下:
论文网络G=(V,E),V表示网络中所有论文节点的集合,则是论文网络中边的集合,对于论文网络中的每个论文节点v∈V,用vi代表论文节点的编号,用vc代表论文节点的内容信息;采用随机游走方法来对论文网络进行游走,得到游走论文节点序列S={v1,v2,...,vT},其中T表示论文节点序列S所包含的节点个数,亦即序列长度,对于每个序列S,都有对应的论文节点标识序列和论文节点内容序列论文节点标识序列和论文节点内容序列称为一组论文平行序列;论文节点标识序列包含了论文节点间的结构信息即论文间的引用关系,论文节点内容序列包含了论文的内容信息及部分论文间结构信息,因为两种序列包含不同的信息,所以能够通过这两种序列的相互映射过程来融合论文网络结构信息和论文节点内容信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911300281.1/1.html,转载请声明来源钻瓜专利网。