[发明专利]基于图局部结构和文本语义相似性的学术论文推荐方法有效
申请号: | 202010730690.1 | 申请日: | 2020-07-27 |
公开(公告)号: | CN112069290B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 杜一;宁致远;乔子越;周园春 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 局部 结构 文本 语义 相似性 学术论文 推荐 方法 | ||
本发明公开了一种基于图局部结构和文本语义相似性的学术论文推荐方法。本方法为:1)基于论文库中论文的关键词、机构、作者特征构建包含论文和论文关系的异质网络;2)对于论文pi,基于该异质网络计算与论文pi有关联的论文相似度,形成一推荐结果候选集;3)生成论文库中每一论文的关系表征向量和语义表征向量,并加权求和得到对应论文的最终表征向量;将论文pi加入到该论文库中并生成论文pi的最终表征向量;4)计算论文库中每一论文的最终表征向量与论文pi的最终表征向量的相似性,并根据所得相似性选取多个论文作为论文pi的待推荐候选论文;5)将推荐结果候选集与待推荐候选论文进行融合,选取相似性最高的若干论文作为论文pi的推荐论文。
技术领域
本发明涉及文本数据挖掘,图数据挖掘,神经网络,异质网络嵌入技术领域,文本预训练模型技术领域,具体是一种基于异质网络图局部结构和学术论文标题和摘要语义相似性的学术论文推荐技术。
背景技术
近年来,随着互联网技术的高速发展,学术研究领域也发生着翻天覆地的变化,网络上学术论文的数量呈爆炸式增长。科研信息过载使得研究人员在网络上查找其所需要的学术论文信息时,往往需要花费大量的时间和精力,间接造成了科研浪费。因此如何快速、准确的为研究人员找到其感兴趣的学术论文信息成为亟待解决的问题。目前,推荐系统在电子商务、新闻和社交网络等领域有着广泛的应用,与传统的基于关键词的搜索技术相比,推荐系统对于海量数据更加有效和个性化。特别是在学术领域,一些研究人员不知道如何总结他们的需求,将导致输入不适当的关键词。相比之下,学术论文推荐系统通常会考虑研究者的兴趣、合著者关系和引用关系来设计推荐算法并提供推荐列表。随着信息技术的快速发展,科研信息服务平台已经广泛出现,这些平台包含了大量论文及其相关信息,例如论文名、摘要、关键词、作者、机构、引用关系等。因此,利用这些科研信息服务平台的数据库中的重要信息可以开发出高效的学术论文推荐系统,帮助研究人员快速检索到他们感兴趣或者领域相关的论文。目前已经有很多研究者针对学术论文推荐问题提出了解决方法,这些方法主要包括:针对一篇论文和它的候选论文,通过它们的关键词计算它们之间的相似性,相似性排序后,高相似性的论文将被推荐给用户;基于论文库构建一个图,其中作者和论文被视为节点,论文之间的关系、用户之间的关系以及用户与论文之间的关系被视为边。然后使用随机游走或其他算法来计算用户和论文之间的相关性。
发明内容
本发明的目的是提供了一种基于论文的网络表征和语义表征来进行论文推荐的技术方案。该技术方案利用论文的作者、机构、关键词构建一个论文关系异质网络,并利用这些信息得到异质网络中各个论文关系的表征向量。再利用论文标题、摘要中的文本信息,通过ELMO、Bert、GPT-2等文本预训练模型得到各个论文的语义表征向量。再将论文关系表征向量和论文语义表征向量加权求和,得到论文的最终表征向量。最后,基于所有论文的最终表征向量,给定任一论文,将所有论文与该论文的余弦相似性排序,并将高相似性的论文推荐给用户。
本方法的有效性在于融合了异质网络表示学习方法,以及网络特征。
本发明具体包括以下步骤:
步骤一:基于论文的关键词、机构、作者特征构建包含论文和论文关系的异质网络。给定任一论文,基于该异质网络,计算论文的加权相似度,并形成基于网络关系的论文加权相似度排序,并排序形成推荐结果候选集。
步骤二:针对步骤一生成的异质网络,基于元路径的随机游走策略生成包含论文id的路径集,并利用word2vec模型训练得到论文的关系表征向量,具体使用python中gensim库中的word2vec模型。
步骤三:利用论文的标题,摘要中的文本信息,使用文本预训练模型得到论文的语义表征向量。
步骤四:将步骤二中的论文关系表征向量和步骤三中的论文语义表征向量加权求和,得到论文的最终表征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010730690.1/2.html,转载请声明来源钻瓜专利网。