[发明专利]一种实体召回方法及实体查询系统在审
申请号: | 202210974839.X | 申请日: | 2022-08-15 |
公开(公告)号: | CN115577068A | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 郭嘉丰;范意兴;王苑铮;陈薇;张儒清;程学旗 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06N3/02 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 召回 方法 查询 系统 | ||
本发明实施例提供一种实体召回方法,包括:S1、获取待查询实体,利用预先训练的第一编码神经网络对待查询实体进行编码,得到待查询实体的多维浮点值查询向量;S2、将多维浮点值查询向量中每个维度的浮点值按照预设规则映射为非浮点的第一数值或者第二数值,得到多维二值查询向量;S3、根据待查询实体的多维二值查询向量在实体知识库选取部分规范实体生成召回的候选实体集合,其中所述实体知识库包括规范化命名的多个规范实体及按照与每个规范实体对应的多维二值实体向量。本发明将浮点值形式的向量转换为二值形式的向量,降低存储空间占用并提高计算效率。
技术领域
本发明涉及自然语言处理,具体来说涉及实体检索技术领域,更具体 地说,涉及一种实体召回方法及实体查询系统。
背景技术
实体检索,是指给定一个自然语言查询,从实体知识库中返回该查询 对应的实体。现有的实体检索技术普遍采用多阶段检索,其中通常包括一 个召回阶段以及至少一个重排序阶段。召回阶段指从完整实体知识库(通 常包括上百万实体)中筛选出数十个候选实体,而重排序阶段要从候选实 体中挑选出正确的实体。其中,对于召回阶段的检索,实体检索系统首先 用神经网络,将查询、实体分别独立编码为高维浮点值的语义向量,之后 用最近邻算法,通过简单的相似度函数(例如欧氏距离、点乘、余弦)召 回与查询向量最接近的候选实体向量集合。现有技术普遍采用基于神经网 络的双塔模型,此类模型得益于神经网络强大的语义匹配能力,使得其召 回率很高而被广泛采用。
然而,用于实体检索的双塔模型为了实现实时检索,双塔模型通常将 实体知识库中每个实体的实体向量离线计算好并存储起来,在线检索时只 需要计算查询向量,以及其与所有实体向量的相似度。为了捕捉更多语义 以提高匹配能力,双塔模型中的查询向量和实体向量普遍采用高维的浮点 值向量,但高维的浮点值向量带来了空间、时间复杂度问题。
因此,现有实体检索系统中将待查询实体和实体知识库中的实体分别 编码为高维浮点值的语义向量,一方面,导致存储实体知识库中实体对应 的高维浮点值的实体向量会消耗大量空间,另一方面,计算与这些待查询 实体与实体知识库中实体向量的相似度,需要密集的浮点值运算,效率很 低。而这两个缺点,进一步导致基于高维浮点值的语义向量的实体检索系 统需要部署在昂贵的高显存GPU服务器上,而难以部署在低算力、低存储空间的设备上,增加了成本。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种实体召 回方法及实体查询系统。
本发明的目的是通过以下技术方案实现的:
根据本发明的第一方面,提供一种实体召回方法,包括:S1、根据待 查询实体,利用预先训练的第一编码神经网络对待查询实体进行编码,得 到待查询实体的多维浮点值查询向量;S2、将所述待查询实体的多维浮点 值查询向量中每个维度的浮点值按照预设规则映射为非浮点的第一数值 或者第二数值,得到多维二值查询向量;S3、根据待查询实体的多维二值 查询向量在实体知识库选取部分规范实体生成召回的候选实体集合,其中 所述实体知识库包括规范化命名的多个规范实体及按照与每个规范实体 对应的多维二值实体向量。
在本发明的一些实施例中,所述实体知识库中的每个规范实体的多维 二值实体向量按照以下方式预先确定:利用预先训练的第二编码神经网络 对规范实体进行编码,得到规范实体的多维浮点值实体向量;将规范实体 的多维浮点值实体向量中每个维度的浮点值按照预设规则映射为非浮点 的第一数值或者第二数值,得到该规范实体的多维二值实体向量。
在本发明的一些实施例中,所述预设规则为:根据多维浮点值查询向 量或者多维浮点值实体向量的每一维浮点值的正负号,将正号的浮点值映 射为第一数值,负号的浮点值映射第二数值,以得到多维二值查询向量或 得到多维二值实体向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210974839.X/2.html,转载请声明来源钻瓜专利网。