[发明专利]一种基于论文关键属性网络的作者消歧方法有效
申请号: | 201911207075.6 | 申请日: | 2019-11-29 |
公开(公告)号: | CN111008285B | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 冯凯;康锐文;王元卓;刘冰冰;彭亮;贾士杨 | 申请(专利权)人: | 中科院计算技术研究所大数据研究院 |
主分类号: | G06F16/38 | 分类号: | G06F16/38;G06F16/901 |
代理公司: | 郑州明华专利代理事务所(普通合伙) 41162 | 代理人: | 王明朗 |
地址: | 450000 河南省郑州*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 论文 关键 属性 网络 作者 方法 | ||
本发明公开了一种基于论文关键属性网络的作者消歧方法,关键属性关系网是通过收集论文中的关键属性并通过他们的相关关系形成的关系网络,分别形成了论文合著者之间的关系网,同一机构的关系网,同一领域的关系网,最终形成论文关键属性的关系网。本发明的方法通过提取论文中论文名称、作者机构、作者领域并围绕作者名称建立关系网络,当对论文作者进行消歧的时候,通过对论文作者的名称的匹配,并结关系网络中的作者机构、作者领域能够有效的解决论文中相同人名但对应不同实际作者的情况。另外通过结合论文名称匹配当前待消歧作者合著者并再次匹配的合著者,能够有效的解决同一实际作者有不同人名写法的这种情况。
技术领域
本发明属于对论文同名作者和不同作者消歧技术领域,具体涉及一种基于论文关键属性网络的作者消歧方法。
背景技术:
近年来,随着互联网的发展,人们生活的方方面面都已经和互联网息息相关,学术活动也是如此。现今学术成果绝大部分都可以通过互联网进行查询。但在海量数据面前,如何能够准确的查询到我们需要的数据就显的尤为重要。目前大部分论文平台都能够通过作者进行检索,检索出查询的作者所发表的论文信息。在这种情况下,作者姓名的准确性就显的尤为重要。但是在现实情况中通常会出现以下两种情况。
其一是同一作者所发表的论文作者姓名可能会以不同的方式进行呈现,如作者真实姓名叫做“张三”,可能在某些外文文献中是“San Zhang”,同时也可能会以缩写的方式进行呈现如“Zhang S.”。
第二是不同的作者重名的情况,如不同机构的两位作者同叫“李四”,或者一位叫做“王五”,另一位叫做“王吴”,在一些外文文献中写的通讯作者的名称结果全为“WuWang”。
以上两种情况都对论文检索造成了很大的困难,在现有系统中很多论文搜索引擎都是直接针对字符串匹配进行检索查询的,随着数据量的增大,检索出来的结果很大程度上不能保证其准确性,大多数情况下都需要人工对结果进行甄别。随着对论文作者准确性要求的提高,也出现了很多对论文作者消歧的办法,但是这些传统的办法只是单纯性的从机构、关键词、出版信息等维度进行简单的匹配,随着数据量的增长,这些传统的方法导致筛选出的论文越发的杂乱无章,后期需要研究人员进行长时间的甄别。严重的影响了研究效率。
发明内容
本发明主要基于当前对论文作者消歧的必要性,以及在大数据量情况下传统消歧方法的有效性上提出了一种建立基于论文关键属性网络的作者消歧方法,对同一实际作者有不同人名写法的数据进行合并;对相同人名但对应不同实际作者的数据进行区分。
实现上述目的所采用的技术方案:一种基于论文关键属性网络的作者消歧方法,建立关键属性关系网,是通过收集论文中的关键属性并通过他们的相关关系形成的关系网络,其中关系网络中的实体节点主要有:作者名称、作者机构、作者领域和论文名称;作者之间通过论文名称、机构和领域三个维度进行聚类,分别形成了论文合著者之间的关系网,同一机构的关系网,同一领域的关系网,最终形成论文关键属性的关系网;对基于关键属性关系网的作者消歧方法的实现逻辑包括如下步骤1-步骤7。
步骤1:向关系网中输入单元A1。
步骤2:将单元A1中的领域、机构和论文名称插入关系网中,做Merge操作。
步骤3:查询A1中的N1与关系网中的所有N节点是否有相同节点。
步骤4:如果有相同节点则进入流程FLOW1,开始进行判断,主要判断是否是相同人名但对应不同实际作者的这种情况。
进行FLOW1流程,包括如下步骤(1)-(7)。
(1)拿出与N1节点相同的N节点关联的领域(F)与机构(O)的列表,分别记为F-List与O-List。
(2)将与N1相关的F与F-List匹配后计算权重,每匹配成功一次权重为1,计算领域权重和,记为:SumWeightField。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科院计算技术研究所大数据研究院,未经中科院计算技术研究所大数据研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911207075.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种程序化控制系统
- 下一篇:一种结合标签构建与社区关系规避的专家推荐方法