[发明专利]姓名消歧的方法和装置有效
申请号: | 201610366086.9 | 申请日: | 2016-05-27 |
公开(公告)号: | CN106055539B | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 韩红旗;姚长青;付媛;李琳娜;于永胜 | 申请(专利权)人: | 中国科学技术信息研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 王增鑫 |
地址: | 100038*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种姓名消歧的方法和装置,所述方法包括:对待消歧姓名的全文本信息预处理,以提取全文本信息的语义特征;根据语义特征生成待消歧姓名的全文本信息的语义指纹,包括邮箱指纹、合著者指纹、机构指纹和文本指纹;通过待消歧姓名的全文本信息与语义指纹库中具有与所述待消歧姓名同名的全文本信息的语义指纹比较,确定待消歧姓名的全文本信息与语义指纹库中的具有与待消歧姓名同名的全文本信息的语义指纹相似度;根据该语义指纹相似度,确定待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组。应用本发明,在保证姓名消歧的准确性的同时,提高了姓名消歧的速度,且支持增量姓名消歧。 | ||
搜索关键词: | 姓名 方法 装置 | ||
【主权项】:
1.一种姓名消歧的方法,其特征在于,包括:对包括待消歧姓名的全文本信息进行预处理,以提取全文本信息的语义特征;根据所述全文本信息的语义特征生成待消歧姓名的全文本信息的语义指纹;通过将待消歧姓名的全文本信息的语义指纹与已构建的语义指纹库中每个具有与所述待消歧姓名同名的全文本信息的语义指纹进行比较,确定所述待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与所述待消歧姓名同名的全文本信息的语义指纹的相似度;根据所述待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与所述待消歧姓名同名的全文本信息的语义指纹的相似度,确定所述待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组,具有与所述待消歧姓名同名的全文本信息的语义指纹属于至少一个姓名群组;当确定所述待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组为至少两个时,确定归属于该至少两个消歧后的姓名群组的全文本信息的语义指纹在已构建的语义指纹库中与所述待消歧姓名的全文本信息的语义指纹相似度满足预定相似度数值的各个匹配的全文本信息;分别计算归属于该至少两个消歧后的姓名群组的各个匹配的全文本信息与所述待消歧姓名的全文本信息的语义指纹相似度和的平均值;将平均值最大的姓名群组确定为所述待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术信息研究所,未经中国科学技术信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610366086.9/,转载请声明来源钻瓜专利网。