[发明专利]一种面向英文文献中中国作者的姓名消歧方法有效

专利信息
申请号: 201610638002.2 申请日: 2016-08-04
公开(公告)号: CN106294677B 公开(公告)日: 2019-08-16
发明(设计)人: 李江;杨斯杰 申请(专利权)人: 浙江大学
主分类号: G06F16/28 分类号: G06F16/28
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵;黄美娟
地址: 310027 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种面向英文文献中中国作者的姓名消歧方法。主要步骤:(1)从英文文献题录信息中抽取作者个人信息、构建作者之间的合著关系与引用关系等;(2)比对重名作者的邮箱;(3)计算重名作者所属机构与学科的相似度;(4)计算重名作者合著关系的相似度;(5)计算重名作者引用关系的相似度;(6)基于步骤3‑5计算出的三类相似度聚类,即可对姓名消歧。
搜索关键词: 一种 面向 英文 文献 中国 作者 姓名 方法
【主权项】:
1.一种面向英文文献中中国作者的姓名消歧方法,操作步骤如下:1)、预处理数据;1.1抽取作者个人信息;从英文文献数据库中获取以下题录字段,以作为解决人名消歧的辅助信息:(a1)作者姓名AF,拼音或英文名写法;(a2)工作单位C1,作者同一时间段对应的多个工作单位;(a3)院/系/所/中心C2,工作单位里对应的具体工作部门;(a4)学科WC,文献类别分类中对应的第一学科;(a5)作者邮箱EM;(a6)引用关系CR,一篇文献的作者与该文献的参考文献的作者之间存在引用关系;1.2构建作者之间的合著关系与引用关系;作者之间的合作关系即一篇论文的N个作者中两两之间的关系;在作者姓名字段分割之后,即可构建作者之间的合作关系;作者之间的引用关系有赖于论文之间的引用关系;不同期刊论文的参考文献的著录格式并不统一,但可基于论文的DOI,提出作者姓名、发表年份、发表期刊的信息;然后,从引用作者群体中提取作者的自引与作者频繁引用的作者信息;2)、比对重名作者的邮箱;对于两位重名的作者,在邮箱信息无缺失的情况下,比对邮箱的结果为0或1,0表示不相同,1表示相同;邮箱地址具有唯一性,若结果为1,则可断定两位重名的作者为同一人;若结果为0,则待定;3)、计算重名作者所属机构与学科的相似度;作者所属机构与学科的特征信息包括:工作单位、院/系/所/中心系所、所属学科,每个特征值的表达形式都是字符型;分别提取两位重名作者的特征值,计算特征值的余弦相似度;余弦相似度计算方法:(b1)列出两个待计算特征值的所有词,计算词频;(b2)计算余弦相似度,计算公式:计算出cosθ的值,这个值即为两个特征值的相似度;4)、计算重名作者合著关系的相似度;作者的合著关系,是解决作者重名问题的一个重要参考因素;若两位重名作者的合著网络高度相似,那么,这两位作者可视为同一人;假设ci和cj是两位重名的作者,他们各自的合著者集合分别为N1和N2,那么,这两位重名作者的合著关系的相似度算法如下:实质上,该相似度算法是一个均值型算法,其中,η是合著者集合中两两匹配相似度时匹配上的作者的总数量;合著者集合中作者两两匹配的相似度算法如下:其中,α、β和γ分别是三种不同匹配类型的权重,这三种匹配类型分别是:e全名匹配,b简写匹配和q首字母缩写匹配,中国作者的合著者集合中可能存在外国作者姓名,因此,这三种匹配方式也适用于外国作者姓名;与h分别指匹配两个人名时相同字符与不同字符的数量;h*100的目的是为了让姓名中有不同字符的两个作者的相似度趋近于0;5)、计算重名作者引用关系的相似度;计算重名作者引用关系的相似度的步骤如下:(c1)列出两个作者发表的文献和这些文献的参考文献;(c2)提取参考文献中的作者姓名,计算作者的自引比例;(c3)计算两位重名作者的施引作者集合中各作者的被引频次,生成两个频次向量,再利用如式2所示的作者集合相似度算法,计算两位作者的施引相似度;(c4)综合自引比例与施引作者集合相似度,加权平均,得出两位作者引用关系的相似度;6)、基于三类相似度聚类;当三种相似度全部计算完成后,可根据当前的结果进行聚类;凝聚型层次聚类算法的基本思路是:将每个对象作为一个聚类簇,计算两两簇之间的相似度,若相似度达到一定数值,则合并两个簇为一个簇,直到簇群无法合并为止;在算法中维护一个相似度排序表,该表是当前所有簇两两根据三种相似度计算出的相似度,降序排列后,得出的表,即将最相近的簇依次排列出来,表首是所有簇中最接近的两个簇,接下来是所有簇中第二接近的两个簇;维护这个表可有效地降低算法的时间复杂度,当计算到某个位置时发现它们的相似度达不到标准,不用再计算后续的簇群;算法的基本步骤如下:(e1)从相似度排序表中提出表首的两个簇;进入步骤(e2);(e2)根据这两个簇的相似度达到聚类标准,判定这两个同名的作者是同一个人;若达到则进入步骤(e3);若否,根据新的簇群重新计算三种相似度,回到步骤(e1);如果表首的两个簇无法合并,则退出算法;(e3)将两个簇群合并在一起,更新相关数据集合;返回步骤(e1)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610638002.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top