[发明专利]实体关系的抽取方法及装置、存储介质、电子设备在审
申请号: | 202011457766.4 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112579752A | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 王博;张文剑;薛小娜 | 申请(专利权)人: | 上海明略人工智能(集团)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/295 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 蔡良伟 |
地址: | 200030 上海市徐汇区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 关系 抽取 方法 装置 存储 介质 电子设备 | ||
1.一种实体关系的抽取方法,其特征在于,包括:
获取待识别的原始自然语句;
基于预设通用规则识别所述原始自然语句中的问题实体;
采用预设神经网络模型抽取所述问题实体的实体关系,其中,所述预设神经网络模型基于通用语料训练得到,所述实体关系用于在基于知识库的问答系统KBQA中查询与所述问题实体相关的答案实体。
2.根据权利要求1所述的方法,其特征在于,基于预设通用规则识别所述原始自然语句中的问题实体包括:
对所述原始自然语句进行清洗,删除无关词和无关符号,得到去停之后的中间语句;
基于所述中间语句从预设实体词典中召回M个候选知识库实体;
分别计算所述M个候选知识库实体的目标特征,其中,所述目标特征包括字符级特征以及知识库特征;
基于所述目标特征对所述M个候选知识库实体进行特征度排序,在序列中选择特征度最大的N个候选知识库实体作为问题实体,其中,N≤M,M,N均为正整数。
3.根据权利要求2所述的方法,其特征在于,基于所述中间语句从预设实体词典中召回M个候选知识库实体包括以下至少之一:
将所述中间语句切片为多个子语句,在所述多个子语句中选择命中所述预设实体词典的子语句作为候选知识库实体;
将所述中间语句切片为多个子语句,计算每个子语句与所述预设实体词典的匹配度,选择匹配度大于预设值的子语句作为候选知识库实体。
4.根据权利要求2所述的方法,其特征在于,基于所述目标特征对所述M个候选知识库实体进行特征度排序包括:
获取所述目标特征的预设权重组合,其中,所述预设权重组合中的每个权值对应所述目标特征的一个特征维度,所述预设权重组合基于样本数据采用先验和后验的方式调节得到;
采用所述权重组合加权求和所述目标特征的特征度;
基于所述目标特征对所述M个候选知识库实体进行特征度排序。
5.根据权利要求1所述的方法,其特征在于,采用预设神经网络模型抽取所述问题实体的实体关系包括:
针对每个问题实体,采用查询语句在预设知识库中对所述问题实体进行关系搜索,召回所述问题实体的实体关系集合;
分别计算所述实体关系集合的特征度,并基于所述特征度在所述实体关系集合中选择多个候选实体关系;
分别计算所述多个候选实体关系与中间语句的文本相似度,并在所述多个候选实体关系中选择文本相似度最高的实体关系作为所述问题实体的实体关系,其中,所述中间语句是所述原始自然语句在去停之后得到的语句。
6.根据权利要求5所述的方法,其特征在于,分别计算所述实体关系集合的特征度包括:
针对所述实体关系集合中的每个实体关系,提取所述实体关系与所述问题实体组成的路径文本,以及提取所述原始自然语句在去停处理之后的中间语句文本;
计算所述路径文本与所述中间语句文本之间的字符特征。
7.根据权利要求5所述的方法,其特征在于,分别计算所述多个候选实体关系与所述中间语句的文本相似度包括:
使用Word2vec模型获取多个候选实体关系和所述中间语句的特征向量,其中,所述Word2vec模型基于通用语料训练得到;
基于所述特征向量分别计算所述多个候选实体关系与所述中间语句之间的余弦相似度。
8.一种实体关系的抽取装置,其特征在于,包括:
获取模块,用于获取待识别的原始自然语句;
识别模块,用于基于预设通用规则识别所述原始自然语句中的问题实体;
抽取模块,用于采用预设神经网络模型抽取所述问题实体的实体关系,其中,所述预设神经网络模型基于通用语料训练得到,所述实体关系用于在基于知识库的问答系统KBQA中查询与所述问题实体相关的答案实体。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7中任一项所述的方法步骤。
10.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:
存储器,用于存放计算机程序;
处理器,用于通过运行存储器上所存放的程序来执行权利要求1至7中任一项所述的方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011457766.4/1.html,转载请声明来源钻瓜专利网。