[发明专利]一种学者重名的消歧方法及其系统有效
申请号: | 201410269979.2 | 申请日: | 2014-06-17 |
公开(公告)号: | CN104111973B | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 程学旗;陈忠祥;郭嘉丰;曹雷 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司11006 | 代理人: | 祁建国,李岩 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 学者 重名 方法 及其 系统 | ||
技术领域
本发明涉及实体消歧领域,特别是涉及一种面向学术领域的学者重名消除歧义的方法及其系统。
背景技术
文献系统是科研人员从事研究工作的重要工具。通过文献系统,科研人员可以全面获取文献和学者信息,了解相关研究的最新进展,进而开拓思路并提高研究水平。然而,目前文献系统中普遍存在一个重要问题,即学者重名问题。学者重名现象主要包括:(1)不同的学者具有相同名字(2)同一个学者名字在不同的文献中具有不同的表现形式。例如在万方文献系统中查询“王伟”,会返回几千条学者信息。而中国学者在发表外文文献时重名问题尤为突出,同样是“Wei Wang”,可能对应“王伟”、“王维”和“汪玮”等多达几十种的中文名称形式。另外在英文文献中存在缩写形式,“Wei Wang”也可以表示成“W.Wang”,更是加剧了重名现象的严重性。学者重名现象的存在,影响到论文隶属性的判断,即具有相同作者名字的论文是否隶属于同一个真实的学者,进而会严重影响到文献系统检索的准确性和基于学者层面进行分析评价的效果。因而,对学者重名进行有效的消歧,不但能够增强文献系统的规范化程度和提高系统服务水平,而且可以广泛的应用在科技评价、学术研究和科技管理中,帮助科研人员更有效的获取和了解学者信息。
学者重名消歧隶属于实体消歧领域,而实体消歧问题广泛存在于很多知识管理应用中,包括数字图书馆、社交网络分析、专家分析检索和舆情分析等。很多研究者针对学者重名问题展开深入的研究,提出了不同的解决方法。根据采用的方法可以分为:基于人工方式的消歧方法、监督式学习的消歧方法和无监督式学习的消歧方法。
基于人工方式的消歧方法,即通过人工辨识方式来判断具有相同作者名字的论文是否隶属于同一个真实的学者。这种方法在数据量少的情况下具有较高的可靠性;然而人工辨识的方式效率偏低,已经不再满足论文和学者数量的快速增长。目前更多采用的是基于学习的自动方法。
监督式学习的消歧方法,基于根据人工标注好的训练数据集合,创建学习模式,生成相应的分类模型;然后利用该分类模型判别具有相同作者名字的论文是否隶属于同一个真实的学者。然而在实际系统中,所面临一个重要问题就是信息稀疏性。譬如在文献系统中,学者的Email、主页和引文等重要信息常常是缺失的。这种信息稀疏性导致分类模型常常达不到预期效果,因而给学者重名消歧问题带来了巨大的挑战。
无监督式学习的消歧方法,基本思路是根据记录的属性特征,计算两个记录之间的相似度;然后利用聚类算法,得到最终的消歧结果,即哪些名字对应同一个真实的学者。无监督的消歧方法主要有基于经典聚类算法,包括层次聚类和谱聚类等,另外还有基于图分割或者图聚类方法来进行消歧。无监督的消歧方法因为不需要人工标注训练数据,通常具有较好的实用性。然而无监督式方法一般需要预先指定聚团的数目,而对于消歧问题而言,实体的聚团数目通常是不可预知的,因此给学者重名消歧问题带来很大的困难。
发明内容
本发明所要解决的技术问题在于提供一种学者重名的消歧方法及其系统,以克服学术数据中可能存在的信息稀缺问题以及现有技术中需要预先指定聚团数目的问题。
为达上述目的,本发明提供一种学者重名的消歧方法,其特征在于,包括:
分类模型建立步骤:基于异质学术网络数据,通过标注获取标注数据集,基于所述标注数据集,构建文档对二元分类的训练数据集,并基于所述训练数据集采用分类算法进行二元分类模型训练,得到文档对二元分类模型;
迭代消歧步骤:基于所述二元分类模型,采用迭代分类算法对需要消歧的数据集合进行迭代判别,得到最终对应真实学者的聚团,实现学者重名的消歧处理。
上述学者重名的消歧方法,其特征在于,所述分类模型建立步骤还包括:
文档对特征提取步骤:提取所述文档对的特征,所述特征包含固有特征和关系特征。
上述学者重名的消歧方法,其特征在于,所述迭代消歧步骤还包括:
文档对构建步骤:基于所述待消歧的数据集,根据消歧的学术人名,获取该名字对应的文档候选集,建立所述文档候选集的文档对关系图,并获取所述文档对的特征;
迭代分类步骤:基于所述文档对的特征,利用所述文档对二元分类模型,预测二元分类的结果,获取初始分类信息,根据所述初始分类信息,经过反复迭代,生成所述文档对的二元分类;
合并处理步骤:基于所述文档对的二元分类进行合并处理,根据所述文档对的二元分类预测结果进行合并或不做操作,得到最终的聚团,每个所述聚团对应一个真实学者,实现学者重名的消歧处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410269979.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:能量消耗测量方法以及能量消耗测量系统
- 下一篇:一种相似性度量的方法以及系统