[发明专利]一种实体链接方法、装置、电子设备及存储介质有效
申请号: | 202011331935.X | 申请日: | 2020-11-24 |
公开(公告)号: | CN112560485B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 黄梓琪;王小捷;江会星;王仲远 | 申请(专利权)人: | 北京三快在线科技有限公司;北京邮电大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/35;G06F18/22;G06F18/2321;G06N3/045;G06N3/0442;G06N3/082 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 任亚娟 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 链接 方法 装置 电子设备 存储 介质 | ||
1.一种实体链接方法,其特征在于,所述方法包括:
获取待识别语句;
提取所述待识别语句的候选实体指称集合,所述候选实体指称集合中包括多个候选实体指称;
计算所述候选实体指称集合中每一候选实体指称的实体指称分数;
确定每个候选实体指称在知识库中对应的候选实体关系对;
对于每一候选实体关系对,基于该候选实体关系对与所述待识别语句的语义相似度,确定该候选实体关系对的实体关系对分数;
对于每一候选实体指称,将该候选实体指称的实体指称分数分别与该候选实体指称对应的候选实体关系对的实体关系对分数进行加权求和,得到多个目标分数;
将目标分数大于预设分数对应的目标候选实体指称与目标候选实体关系对中的目标候选实体相链接;
其中,所述计算所述候选实体指称集合中每一候选实体指称对应的实体指称分数,包括:
对于每一候选实体指称,利用预设字符替换所述待识别语句中的该候选实体指称,得到目标待识别语句,其中,预设字符为在所述待识别语句中出现的概率小于预设概率阈值的字符;
将所述目标待识别语句输入预先训练好的回归模型中,得到所述目标待识别语句对应的概率;
将所述目标待识别语句对应的概率确定为所述目标待识别语句中被替换的候选实体指称对应的实体指称分数。
2.根据权利要求1所述的方法,其特征在于,所述提取所述待识别语句的候选实体指称集合,包括:
将所述待识别语句中当前待识别字输入预先训练好的标签预测模型,得到所述当前待识别字对应的候选标签、每个所述候选标签对应的标签分布概率和标签转移概率;
获取预测所述当前待识别字之前所得的所述待识别语句的历史候选标签子序列与所述历史候选标签子序列的历史子序列概率,其中,所述历史子序列概率大于第一概率阈值;
基于所述历史候选标签子序列和所述历史子序列概率,以及所述当前待识别字对应的候选标签,每个所述候选标签对应的标签分布概率和标签转移概率,确定所述待识别语句的当前候选标签子序列以及所述当前候选标签子序列的当前子序列概率,直至确定出所述待识别语句的候选标签序列以及所述候选标签序列的序列概率,其中,所述当前子序列概率大于第二概率阈值;
通过所述候选标签序列中的目标候选标签序列,确定所述待识别语句的候选实体指称集合,其中,所述目标候选标签序列的目标序列概率大于第三概率阈值。
3.根据权利要求1所述的方法,其特征在于,在训练回归模型的过程中,将符合语法结构的实体指称被所述预设字符替换所得的训练语句确定为正样本数据,将不符合语法结构的实体指称被所述预设字符替换时所得的训练语句确定为负样本数据。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述对于每一候选实体关系对,基于该候选实体关系对与所述待识别语句的语义相似度,确定该候选实体关系对的实体关系对分数,包括:
对于每一候选实体关系对,将该候选实体关系对与所述待识别语句输入预先训练好的语义相似度计算模型中,得到该候选实体关系对与所述待识别语句的语义相似度,并基于所述语义相似度确定该候选实体关系对的实体关系对分数;
其中,在训练所述语义相似度计算模型之前,对训练语句中的实体指称对应的候选实体关系对进行聚类,得到不同类别的候选实体关系对集合;每次训练所述语义相似度计算模型时,从每一类别的候选实体关系对集合中随机选取一个候选实体关系对作为负样本训练数据,并将训练语句中实体指称正确的候选实体关系对作为正样本数据。
5.根据权利要求4所述的方法,其特征在于,所述对于每一候选实体关系对,将该候选实体关系对与所述待识别语句输入预先训练好的语义相似度计算模型中,该候选实体关系对与所述待识别语句的语义相似度,包括:
对于每一候选实体关系对,将该候选实体关系对输入预先训练好的结合注意力机制的语义相似度计算模型,得到该候选实体关系对的关系对向量;
对于每一候选实体关系对,计算该候选实体关系对的关系对向量与待识别问句的问句向量的相似度,作为该候选实体关系对与所述待识别语句的语义相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司;北京邮电大学,未经北京三快在线科技有限公司;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011331935.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种气体加热器
- 下一篇:一种三轴光纤陀螺仪用ASE光源