[发明专利]一种实体消歧方法及系统有效
申请号: | 202010330194.7 | 申请日: | 2020-04-24 |
公开(公告)号: | CN111581973B | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 付琨;于泓峰;张文凯;苏武运;姚康泽;王承之;姚方龙;李沛光;田雨 | 申请(专利权)人: | 中国科学院空天信息创新研究院 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/04 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 方法 系统 | ||
本发明公开的实体消歧方法及系统,包括:基于待消歧指称确定多个相互独立的候选实体构成候选实体集合;基于网络百科类语料中的超链接‑锚文本,获取每个候选实体对应的指称‑候选实体对信息作为训练数据;采用双向长短期记忆网络对指称上下文和实体描述文本分别进行语义编码,并通过多角度注意力机制,对指称上下文和实体描述文本中的关键语义信息进行提取和处理,进而从候选实体中确定消歧结果;从不同角度对文本的关键语义信息进行提取,可以从文本中发现更多的消歧判据,提高消歧精度;通过提取和强调文本中互相关性高的信息,互注意力层能够从不同的角度丰富表示向量的语义特征,进一步提升指称和候选实体相似度计算的精确性以及消歧性能。
技术领域
本发明属于深度学习和自然语言处理技术领域,具体涉及一种实体消歧方法。
背景技术
随着计算机科学与互联网技术的不断发展,人类社会的信息量,尤其是互联网中的信息量呈现出爆炸式的增长,大量的数据以自然语言的形式存储在网络文本和电子文档中。由于自然语言存在模糊性与歧义性,如何从海量的文本数据中准确地提取目标信息,从语义层面理解和处理文本,是自然语言处理领域的一大挑战。
给定一段文本及其中待消歧的指称项,实体消歧的任务是将每个指称链接到知识库中正确的实体上,以消除其歧义性。实体消歧通过将文本关联到知识库,将语义信息转化为计算机能够处理的形式,是许多自然语言处理任务的重要基础环节。近年来,随着深度学习在自然语言处理领域的诸多任务中取得显著突破,陆续有研究者在实体消歧任务中采用基于深度学习的方法。
但是,已有的实体消歧模型仍然存在以下问题:1.待消歧的文本和实体描述文本中,只有少部分信息可以作为消歧的关键性判据,而现有的模型中缺乏对消歧所需关键词项的提取能力,当文本的冗余和噪声较高时,模型的消歧精度将会下降;2.实体消歧的关键是学习待消歧的文本和实体的语义表示,并通过相似度计算选择得分最高的实体,因此在编码时对输入文本中的语义信息进行交互,并对语义相关的部分予以高关注度,从而提升消歧模型在不同语境下对正确候选实体的判别能力。而现有的模型中缺乏有效的语义交互机制,当待消歧指称的歧义性较高时,模型的消歧能力将会显著下降。
发明内容
为了解决现有的实体消歧模型中消歧精度较低的问题,本发明提供一种实体消歧方法,包括:
基于待消歧指称确定多个相互独立的候选实体构成候选实体集合;
基于网络百科类语料中的超链接-锚文本,从所述候选实体集合中获取每个候选实体对应的指称-候选实体对信息作为训练数据;所述指称-候选实体对信息包括:锚文本、锚文本对应的指称和指称上下文、锚文本对应的实体页面以及实体描述文本;
采用双向长短期记忆网络Bi-LSTM对所述训练数据中的指称上下文和实体描述文本分别进行语义编码,并通过多角度注意力机制,对指称上下文和实体描述文本中的关键语义信息进行提取和处理,进而从候选实体中确定消歧结果;其中所述关键语义信息为作为消歧判据的信息。
优选的,所述基于待消歧指称确定多个相互独立的候选实体构成候选实体集合,包括:
从网络百科类语料库中获取与待消歧指称有指代关系的实体作为第一候选实体;
借助网络搜索引擎或获取与待消歧指称有指代关系,且不属于第一候选实体的部分实体作为第二候选实体;
将所述第一候选实体和第二候选实体合并构成候选实体集合。
优选的,所述基于网络百科类语料中的超链接-锚文本,从所述候选实体集合中获取每个候选实体对应的指称-候选实体对信息作为训练数据,包括:
对于每个候选实体,从网络百科类文档中抽取得到链接向该实体页面的锚文本结构,作为相对应的指称-候选实体对,截取锚文本左右相邻文本中一定窗口内的词项作为指称的上下文,作为该候选实体对应的训练数据的正样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院空天信息创新研究院,未经中国科学院空天信息创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010330194.7/2.html,转载请声明来源钻瓜专利网。