[发明专利]一种改进的面向领域的命名实体消歧方法在审

专利信息
申请号: 201710492195.X 申请日: 2017-06-26
公开(公告)号: CN107316062A 公开(公告)日: 2017-11-03
发明(设计)人: 赵翔;曾维新;唐九阳;殷风景;廖劲智;冯滔 申请(专利权)人: 中国人民解放军国防科学技术大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 北京中济纬天专利代理有限公司11429 代理人: 陆薇薇
地址: 410073 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 改进 面向 领域 命名 实体 方法
【说明书】:

技术领域

发明涉及命名实体消歧领域,具体涉及一种改进的面向领域的命名实体消歧方法。

背景技术

目前,命名实体消歧技术主要分为两种:实体聚类消歧和实体链接消歧。实体聚类消歧的主要任务是,给定一个包含某个歧义实体的网页集合,按照网页中实体指称项指向的实体概念对网页进行聚类,每一类包含着某一命名实体的所有可能对应的实体指称项。消歧时通过计算特征相似度,使用聚类算法确定实体指称对应的类别,进而得到相应的命名实体。而实体链接消歧的任务是,给定一个实体指称项,将其链接到知识库中某一实体上去。由于实体链接消歧方法克服了聚类法仅利用表层特征而导致的信息量不足的问题,并充分利用结构化的知识资源来帮助实现消歧过程,因此在近年来成为了主流的命名实体消歧方法。

实体链接消歧的基本框架分为命名实体识别、候选实体生成和候选实体排序三步:

命名实体识别从文本数据集中抽取相关的命名实体指称(mentions)。这个过程是后续消歧技术的基石,主要用到的方法包括随机条件场模型和其它概率图模型等。

候选实体生成阶段为每一个实体指称生成一组候选实体。主流技术包括基于名称词典的方法、局部文档表面形式扩展的方法以及基于搜索引擎的方法等。基于名称的方法通过利用维基百科或其他百科类网站上的信息,如实体页面信息、指向跳转页信息、同名词消歧页信息等,构建一个线下的名称词典。这个词典包含着实体指称和实体之间多对多的关系;利用这个词典,当给定某一实体指称时,便能查找到相对应的候选实体组。局部文档的表面形式扩展方法考虑到实体指称以其缩写或局部词形式出现的情况,这时需要先将缩写或局部词扩展成实体指称全称,再利用其它的方法得到候选实体组。而基于搜索引擎的方法则是利用搜索引擎来搜索查找实体指称可能对应的候选实体。

候选实体排序阶段是在得到候选实体组后,对这些实体进行排序,找到最有可能是正确实体的候选实体的过程。大体来讲,候选实体排序的方法分为两种--有监督的和无监督的排序方法。有监督的排序方法利用标注好的语料来学习如何排序,其进一步可以分为二值分类法、learning to rank法、基于概率的方法和基于图的方法等。而无监督的方法不需要标注好的语料,主要分为基于向量空间模型法和基于信息检索的方法。从另外一个角度,通过是否考虑一段语料多个实体指称之间的关系或者多段语料中实体指称的关系,候选实体排序方法可分为独立排序法、集体排序(collective ranking)法和联合排序(collaborative ranking)法。

排序的根本依据是候选实体的特征,因此特征的选取也十分重要,选择不同的特征可能得到不同的结果。特征分为上下文无关特征和上下文有关特征。上下文无关特征主要利用表面信息,与实体指称所处语料的上下文无关,具体包括名字串相似度、实体流行度和实体类型等;而上下文相关特征则充分利用了整个语料的信息,包括上下文信息相似度和实体间一致性等等。

现有的国内外实体链接消歧方法基本遵循上述框架,并且大多数均采用集体排序方法以更好的捕捉实体指称间的依赖性,进而提升消歧效果。最先提出集体消歧概念的是Kulkarni[1]等人,在他们的方法中,给定两个实体指称以及相对应的两组候选实体,先计算出两两候选实体之间的关联度并构建出概率因子图。然后,为找到最有可能对应的实体,采用近似的方法来解决这个优化的图问题(NP-难)。实验展示了这种方法的优越性,但是整个算法执行过程的计算代价较大,需要花费很长时间。

Hoffart[2]等基于类似的思想,提出了更加健壮和高效的命名实体消歧系统AIDA。他们将实体指称和候选实体作为依赖图的节点,并计算出实体流行度、上下文信息相似度和实体间一致性这三个特征的值,分别作为实体指称与候选实体、候选实体之间的边上的权重。然后,提出改进的贪婪算法来计算密集子图,也即最终的映射结果。AIDA具有较高的消歧准确性,在多个数据集上都能得到很好的结果。但由于特征的提取以及相似度计算过程耗时较长,整个系统的效率也不高。

Nguyen[3]等人为提高消歧系统的效率,提出了AIDA-l ight系统。他们将消歧过程分为两个阶段,首先找出歧义性低的简单指称并对其消歧。根据这一阶段的消歧结果,确定整个文本的领域主题,并将此作为新特征加入对歧义性高的实体指称的消歧过程,以提高准确率。而相关的实验结果也证实了AIDA-light的高效性。但由于AIDA-light在选取了较为简单的特征,因此没有充分的挖掘文本中的信息,因此整个消歧过程的准确率仅与AIDA等消歧系统持平。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710492195.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top