[发明专利]一种适用于文献网络的论文领域分类方法有效
申请号: | 201910077857.6 | 申请日: | 2019-01-26 |
公开(公告)号: | CN109815335B | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 王秀;余春艳;陈璐 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市闽*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适用于 文献 网络 论文 领域 分类 方法 | ||
本发明涉及一种适用于文献网络的论文领域分类方法,选定一个文献网络,首先基于元结构计算论文节点间的相关程度;通过定义一个目标函数使得论文节点间基于元结构的相关程度与其在低维向量空间中的相似度的差距达到最小,将文献网络中的论文节点映射到低维表示空间;在低维空间计算论文节点之间的相似度,进行K‑means聚类,得到论文的领域分类结果。本发明提出的方法利用了异构信息网络中元结构这一重要性特点,使得节点的低维向量表示可以在包含节点网络拓扑结构信息的同时融合网络中丰富的异构信息,更好地对论文所属领域进行分类。
技术领域
本发明涉及信息检索领域,特别是一种适用于文献网络的论文领域分类方法。
背景技术
随着文献网络在各个学科的普及,催生了用户在使用它们时的各种需求。比如,为一篇论文推荐合适的会议或者期刊;为学者寻找其他可能感兴趣的最新论文等等。当学者需要对一个新的研究领域有所了解时,就可以通过浏览这一类领域的论文入手。因此,对文献网络中的论文进行领域分类就变得很重要。一般来说,网络内的两个论文节点越相似,它们是同一类领域的可能性就越大。文献网络作为一种典型的异构信息网络,它的节点间有丰富的行为等语义信息,比如作者发表了一篇论文、论文发表于某个杂志等等。而且文献网络中一个节点的同类型关系中也有不同的语义,例如一个学者通过论文与多个学者形成合作关系,但是论文课题却不尽相同,显然,相应的合作关系就存在语义差异。这些信息对于文献网络内节点对相似度计算至关重要。当前的研究中,元路径与元结构都蕴含了异构信息网络的语义信息。但元路径的定义决定了它必须以序列的形式存在;而元结构只限制了一个源节点和一个目标节点,中间节点未加约束,在表述语义含义时可以更灵活。
此外,文献网络中数据规模的不断扩大,数据维数的不断增长,给数据分析和处理带来了很多问题。因此需要有一种方法,既可以减少数据的维数,又不会去掉太多的有用信息。近年来,网络表示学习的发展迅速,在网络任务中已有不少成功运用。文献网络表示学习的主要目的是将网络中的节点映射到低维的表示空间中。同时,要求在其映射后的表示空间中,原网络中越相似的节点,在表示空间中的距离越接近。因此,学习到的网络节点在低维空间中的表示向量可以直接用于节点相似度计算,进而用于文献网络的节点分类。
基于此,本发明提出了一种适用于文献网络的论文领域分类方法。在降低计算量的同时,使得学习到的低维向量表示可以在包含节点网络拓扑结构信息的同时融合网络中丰富的异构信息,更好地对论文所属领域进行分类。
发明内容
本发明的目的在于提供一种适用于文献网络的论文领域分类方法,以克服现有技术中存在的缺陷。
为实现上述目的,本发明的技术方案是:一种适用于文献网络的论文领域分类方法,包括如下步骤:
步骤S1、给定一个文献网络G=(V,E),根据网络模式找出文献网络G的元结构S,其中,V是节点集合,E是节点间关系集合;
步骤S2、对于文献网络G中的所有论文节点,基于元结构S,指定一个节点作为源对象os,一个节点作为目标对象ot,从源节点os出发,沿着元结构S的各个层级,根据网络文献G中存在的链接扩展生成元结构S限制下的各个层级layer的子图g,并计算os与ot在第layer层的子图g中的相关度;当扩展到元结构最后一层ds的时候,即可得到元结构实例及实例的两端节点os、ot之间的相关度θ(os,ot);
步骤S3:定义论文节点vi和vj之间的联合概率,具体公式为:
其中,emi是节点vi的低维向量表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910077857.6/2.html,转载请声明来源钻瓜专利网。