[发明专利]实体链接方法及装置在审
申请号: | 202210843702.0 | 申请日: | 2022-07-18 |
公开(公告)号: | CN115186105A | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 曾山松 | 申请(专利权)人: | 北京龙智数科科技服务有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F40/295;G06K9/62 |
代理公司: | 北京嘉科知识产权代理事务所(特殊普通合伙) 11687 | 代理人: | 杨超 |
地址: | 100020 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 链接 方法 装置 | ||
1.一种实体链接方法,其特征在于,所述方法包括:
获取文档库中与当前查询语句的实体相关度分数最高的T个检索文档,拼接成检索长文档,其中,T为自然数且T≥2;
获取知识库中与所述当前查询语句相似度分数最高的N个候选实体,组成候选实体集合,其中,N为自然数且N≥2;
采用阅读理解模型根据所述当前查询语句、所述检索长文档和所述候选实体集合获取所述当前查询语句的实体链接。
2.根据权利要求1所述的方法,其特征在于,获取文档库中与所述当前查询语句的实体相关度分数最高的M个检索文档之前,所述方法还包括:
采用实体识别模型检测所述当前查询语句,得到所述实体。
3.根据权利要求1所述的方法,其特征在于,所述获取文档库中与所述当前查询语句的实体相关度分数最高的M个检索文档之前,所述方法还包括:
按照以下步骤依次获取与所述当前查询语句的实体与所述文档库中的各个文档的相关度分数:
获取所述当前查询语句的各个实体与所述文档库中的当前文档的子相关度;
根据各个实体对应的子相关度的和获取所述当前查询语句的实体与当前文档的相关度分数。
4.根据权利要求1所述的方法,其特征在于,获取知识库中与所述当前查询语句相似度分数最高的N个候选实体,包括:
将所述当前查询语句和所述检索长文档拼接后输入预置的语言模型编码器,得到第一编码数据;
将所述知识库中的在库实体和对应的描述文本拼接后输入所述语言模型编码器,得到第二编码数据;
根据所述第一编码数据和所述第二编码数据获取所述当前查询语句与所述知识库中的在库实体的相似度分数。
5.根据权利要求4所述的方法,其特征在于,根据所述第一编码数据和所述第二编码数据获取所述当前查询语句与所述知识库中的在库实体的相似度分数,包括:
对所述第一编码数据和所述第二编码数据进行字符嵌入处理;
根据所述第一编码数据的转置和所述第二编码数据的乘积得到所述当前查询语句与所述知识库中的在库实体的相似度分数。
6.根据权利要求1所述的方法,其特征在于,采用阅读理解模型根据所述当前查询语句、所述检索长文档和所述候选实体集合获取所述当前查询语句的实体链接,包括:
采用双互匹配网络模型根据所述当前查询语句、所述检索长文档和所述候选实体集合获取所述候选实体为目标实体的概率;
将概率最大的候选实体对应的链接作为所述当前查询语句的实体链接输出。
7.根据权利要求1所述的方法,其特征在于,采用双互匹配网络模型根据所述当前查询语句、所述检索长文档和所述候选实体集合获取所述候选实体为目标实体的概率,包括:
将所述当前查询语句、所述检索长文档和当前候选实体分别输入所述双互匹配网络模型的编码器,得到编码数据组;
采用成对匹配表示和门机制根据所述编码数据组对所述当前查询语句、所述检索长文档和所述当前候选实体进行特征融合,得到特征融合数据;
根据所述特征融合数据获取所述当前查询语句、所述检索长文档和所述当前候选实体两两之间的匹配嵌入表示;
根据所述匹配嵌入表示获取所述当前候选实体为目标实体的概率。
8.一种实体链接装置,其特征在于,所述装置包括:
检索文档获取模块,用于获取文档库中与当前查询语句的实体相关度分数最高的T个检索文档,拼接成检索长文档,其中,T为自然数且T≥2;
候选实体获取模块,用于获取知识库中与所述当前查询语句相似度分数最高的N个候选实体,组成候选实体集合,其中,N为自然数且N≥2;
实体链接获取模块,用于采用阅读理解模型根据所述当前查询语句、所述检索长文档和所述候选实体集合获取所述当前查询语句的实体链接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京龙智数科科技服务有限公司,未经北京龙智数科科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210843702.0/1.html,转载请声明来源钻瓜专利网。