[发明专利]一种实体消歧方法及系统有效
申请号: | 202010330194.7 | 申请日: | 2020-04-24 |
公开(公告)号: | CN111581973B | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 付琨;于泓峰;张文凯;苏武运;姚康泽;王承之;姚方龙;李沛光;田雨 | 申请(专利权)人: | 中国科学院空天信息创新研究院 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/04 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 方法 系统 | ||
1.一种实体消歧方法,其特征在于,包括:
基于待消歧指称确定多个相互独立的候选实体构成候选实体集合;
基于网络百科类语料中的超链接-锚文本,从所述候选实体集合中获取每个候选实体对应的指称-候选实体对信息作为训练数据;所述指称-候选实体对信息包括:锚文本、锚文本对应的指称和指称上下文、锚文本对应的实体页面以及实体描述文本;
采用双向长短期记忆网络Bi-LSTM对所述训练数据中的指称上下文和实体描述文本分别进行语义编码,并通过多角度注意力机制,对指称上下文和实体描述文本中的关键语义信息进行提取和处理,进而从候选实体中确定消歧结果;其中所述关键语义信息为消歧判据的信息;
所述采用双向长短期记忆网络对所述训练数据中的指称上下文和实体描述文本分别进行语义编码,并通过多角度注意力机制,对指称上下文和实体描述文本中的关键语义信息进行提取和处理,进而从候选实体中确定消歧结果,包括:
使用双向长短期记忆网络对各训练数据中的上下文和实体描述文本分别进行编码,得到文本序列的编码层语义表示;
根据所述文本序列的编码层语义表示,使用内部注意力机制,对指称上下文和实体描述文本自身的关键语义信息进行提取与聚合,获取指称上下文和实体描述文本在内部注意力层的表示向量;
根据文本序列的编码层语义表示和内部注意力层的表示向量,使用互注意力机制,对指称上下文和实体描述文本的信息进行交互,并对两者语义相关的部分进行提取与聚合,获取指称上下文和实体描述文本在互注意力层的表示向量;
根据内部注意力层和互注意力层的表示向量,使用多层感知机获取指称和候选实体的相似度得分,并基于相似度得分在候选实体中选出消歧答案。
2.根据权利要求1所述实体消歧方法,其特征在于,所述基于待消歧指称确定多个相互独立的候选实体构成候选实体集合,包括:
从网络百科类语料库中获取与待消歧指称有指代关系的实体作为第一候选实体;
借助网络搜索引擎或获取与待消歧指称有指代关系,且不属于第一候选实体的部分实体作为第二候选实体;
将所述第一候选实体和第二候选实体合并构成候选实体集合。
3.根据权利要求2所述实体消歧方法,其特征在于,所述基于网络百科类语料中的超链接-锚文本,从所述候选实体集合中获取每个候选实体对应的指称-候选实体对信息作为训练数据,包括:
对于每个候选实体,从网络百科类文档中抽取得到链接向该实体页面的锚文本结构,作为相对应的指称-候选实体对,截取锚文本左右相邻文本中一定窗口内的词项作为指称的上下文,作为该候选实体对应的训练数据的正样本;
对于每个正样本,基于样本中指称的候选实体集合,从候选实体集合中选择若干候选实体对当前正样本中的实体进行替换,作为当前正样本对应的负样本。
4.根据权利要求1所述的实体消歧方法,其特征在于,所述使用双向长短期记忆网络对各训练数据中的上下文和实体描述文本分别进行编码,得到文本序列的编码层语义表示包括:
基于每个候选实体对应的训练数据,采用双向长短期记忆网络结构分别按照锚文本的正序和逆序得到正序向量和逆序向量;
基于时间步对所述正序向量和逆序向量进行拼接,得到每个时刻的隐向量表示;
基于所有时刻的隐向量表示和实体描述文本的语义表示得到编码层语义表示。
5.根据权利要求4所述的实体消歧方法,其特征在于,所述按照锚文本的正序和逆序得到正序向量和逆序向量;包括:
基于训练数据中各锚文本指称对应的上下文文本,以指称为界,将上下文切分为左文本和右文本;
对左文本进行正序操作,对右文本进行逆序操作分别得到正序向量和逆序向量。
6.根据权利要求4所述的实体消歧方法,其特征在于,所述编码层语义表示如下式:
其中,ht为t时刻编码层语义表示,为t时刻正序向量,为t时刻逆序向量,xt为t时刻对应文本中词项的词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院空天信息创新研究院,未经中国科学院空天信息创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010330194.7/1.html,转载请声明来源钻瓜专利网。