[发明专利]候选实体排序方法、训练方法及相关装置有效

专利信息
申请号: 201910830007.9 申请日: 2019-09-03
公开(公告)号: CN110795527B 公开(公告)日: 2022-04-29
发明(设计)人: 张金晶;泮华杰;门睿;宁潇;周萱;杨璧嘉 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F16/33 分类号: G06F16/33
代理公司: 广州三环专利商标代理有限公司 44202 代理人: 郝传鑫;熊永强
地址: 518057 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 候选 实体 排序 方法 训练 相关 装置
【说明书】:

本申请实施例公开了一种候选实体排序方法、训练方法及相关装置,该候选实体排序方法可包括:将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量;所述第一句子向量是处理实体指称项文本得到的句子向量,所述第二句子向量为处理目标候选实体得到的句子向量,所述实体指称项文本为包括所述实体指称项的文本;将所述第一句子向量和所述第二句子向量中相对应的元素相减以得到第二特征向量;根据所述第一特征向量和所述第二特征向量,确定所述目标候选实体与所述实体指称项之间的相似度;对所述候选实体集中的各候选实体进行排序;候选实体排序的准确率和召回率较高。

技术领域

本申请涉及信息检索领域,尤其涉及一种候选实体排序方法、训练方法及相关装置。

背景技术

实体链接是指将文本中的实体指称链向知识库实体的过程,它能够丰富文本语义信息,在自然语言处理、信息检索等领域有着广泛的应用前景。实体链接的研究主要分两大块:候选集合的生成(即候选生成)和对候选集合的消岐(即候选排序)。

候选实体排序方法主要有基于流行度的候选实体排序、基于上下文相关性的候选实体排序和基于有监督学习的候选实体排序。基于实体流行度的候选实体方法的缺点在于没有考虑上下文。这就使得无论查询名称的上下文是什么,这种方法都会给出一样的答案,而当目标实体不是最流行实体时就会出错。传统的基于上下文相关性和监督学习的方案只能在有限的训练样本中对后续集进行分类排序,排序的准确率和召回率都较低。因此,需要研究排序的准确率和召回率较高的候选实体排序方法。

发明内容

本申请实施例公开了一种候选实体排序方法、训练方法及相关装置,排序的准确率和召回率较高。

第一方面,本申请实施例提供了一种候选实体排序方法,该方法可包括:将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量;所述第一句子向量是处理实体指称项文本得到的句子向量,所述第二句子向量为处理目标候选实体得到的句子向量,所述目标候选实体为实体指称项的候选实体集中的任一候选实体,所述第一句子向量和所述第二句子向量中的元素一一对应,所述实体指称项文本为所述实体指称项所在的文本;

将所述第一句子向量和所述第二句子向量中相对应的元素相减以得到第二特征向量;

根据所述第一特征向量和所述第二特征向量,确定所述目标候选实体与所述实体指称项之间的相似度;

对所述候选实体集中的各候选实体进行排序;其中,所述候选实体集中的各候选实体的排序和所述各候选实体与所述实体指称项之间的相似度正相关。

本申请实施例中,通过第一特征向量和第二特征向量可以准确地确定目标候选实体与实体指称项之间的相似度,进而准确地对该目标候选实体进行排序。

在一个可选的实现方式中,所述根据所述第一特征向量和所述第二特征向量,确定所述目标候选实体与所述实体指称项之间的相似度包括:

将所述第一特征向量输入至训练得到的目标神经网络的全连接层进行处理得到第三特征向量以及将所述第二特征向量输入至所述全连接层进行处理得到第四特征向量;

计算所述第三特征向量和所述第四特征向量的相似度,得到所述目标候选实体与所述实体指称项之间的相似度。

在该实现方式中,利用训练得到的目标神经网络的全连接层分别对第一特征向量和第二特征向量进行处理以得到第三特征向量和第三特征向量,再计算该第三特征向量和该第四特征向量的相似度作为目标候选实体与实体指称项之间的相似度;可以准确地计算出目标候选实体与实体指称项之间的相似度。可选的,计算所述第三特征向量和所述第四特征向量的相似度可以是计算所述第三特征向量和所述第四特征向量之间的欧几里得距离。

在一个可选的实现方式中,所述目标神经网络包括深度神经网络和所述全连接层,所述深度神经网络用于对输入的词向量矩阵进行特征提取以输出句子向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910830007.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top