[发明专利]一种基于对偶的序列到序列生成的论文网络表示学习方法有效
申请号: | 201911300281.1 | 申请日: | 2019-12-17 |
公开(公告)号: | CN111104797B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 刘杰;李娜;何志成 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/289;G06F40/30;G06F40/58 |
代理公司: | 天津耀达律师事务所 12223 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对偶 序列 生成 论文 网络 表示 学习方法 | ||
一种基于对偶的序列到序列生成的论文网络表示学习方法,该方法包括:论文平行序列生成部分;论文节点识别部分(论文内容嵌入,论文内容序列编码,论文标识序列生成);论文内容生成部分(论文节点标识嵌入,论文标识序列编码,论文语义解码,论文内容生成);和对偶融合部分。本发明综合论文网络中论文节点的内容信息(即论文的题目或摘要)和论文间的结构信息(即论文间的引用关系),通过两种信息的互相映射过程将两种信息融合得更充分,学习到更具有含义的论文节点的表征。本发明还可以在解码出输入论文序列的文本内容之后继续解码出新的文本,即考虑到输入的论文序列的结构信息和内容信息之后预测出的新的论文内容。
技术领域
本发明属于计算机应用技术,数据挖掘,网络表示学习技术领域。
背景技术
网络表示学习因为可以应用在很多不同的下游任务中,所以日益成为一个热门的研究课题。然而由于网络数据的结构十分复杂,并且会带有一些伴随信息,比如大量的论文网络数据中不仅包括论文的题目和摘要等内容信息,还包括论文间的引用关系信息,这些高度非线性化信息对网络表示学习提出了挑战。近年来,研究人员在网络表示学习领域付出了大量的努力,取得了丰富的研究成果,根据模型的输入信息将网络表示学习方法大致分为两类。
一类是结构保持的网络嵌入,比如经典的DeepWalk[1]模型利用一阶近邻结构来进行随机游走采样,并在得到的节点序列基础上学习节点表征。节点向量模型node2vec[2]则进一步提出了基于二阶近邻结构的随机游走算法。而唐建等人提出了大规模信息网络嵌入模型LINE[3]直接建模节点之间的一阶和二阶近邻结构的重构损失。GraRep模型[4]则进一步推广到更高阶的近邻结构。然而,已有的模型通常需要人为地指定需要保留的结构信息,如一阶、二阶等,在实际应用中仍然有一定的局限性。
另一类是融合伴随信息的网络嵌入,在结构信息之外,真实网络数据中的节点往往伴随着标签、类型、属性等信息,节点的伴随信息与拓扑结构属于全然不同的模态,从不同的角度描述着节点的特征以及节点之间的高层语义联系。清华大学的刘知远等人在DeepWalk模型的基础上,分别引入了节点内容[5]和标签信息[6],有效提升了节点分类任务的性能。而在异质信息网络的嵌入研究中,HINE[7]、HNE[8]等模型则进一步考虑了节点和边的类型,从而更细粒度地建模网络结构信息。但是现有方法缺乏对节点内容信息的深度挖掘,有一定的局限性。
参考文献:
[1]Perozzi B,Al-Rfou R,Skiena S.Deepwalk:Online learning of socialrepresentations[C]. Proceedings of the 20th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining.ACM,2014:701-710.
[2]Grover A,Leskovec J.node2vec:Scalable feature learning fornetworks[C].Proceedings of the 22th ACM SIGKDD International Conference onKnowledge Discovery and Data Mining.ACM,2016:855–864.
[3]Tang J,Qu M,Wang M,et al.LINE:Large-scale information networkembedding[C]. Proceedings of the 24th International Conference on World WideWeb.International World Wide Web Conferences Steering Committee,2015:1067-1077.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911300281.1/2.html,转载请声明来源钻瓜专利网。