[发明专利]用于确定文本相关度的方法、装置、设备和介质有效
申请号: | 201910093336.X | 申请日: | 2019-01-30 |
公开(公告)号: | CN109871428B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 徐也;冯知凡;方舟;张扬;朱勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉;罗利娜 |
地址: | 100094 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 确定 文本 相关 方法 装置 设备 介质 | ||
1.一种确定文本相关度的方法,包括:
从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素,所述知识库包括由知识元素构成的知识表示,每个知识表示由所述知识库的所述知识元素中的两个或多个知识元素构成;
确定所述第一组知识元素与所述第二组知识元素之间的知识元素相关度,其中确定所述知识元素相关度包括:
确定所述第一组知识元素对应的第一组合向量表示和所述第二组知识元素对应的第二组合向量表示;
提取所述第一组合向量表示的第一特征和所述第二组合向量表示的第二特征;以及
基于所述第一特征和所述第二特征来确定所述知识元素相关度;以及
基于文本项与向量表示之间的第二预定映射关系,确定与所述第一文本对应的第一文本向量表示和与所述第二文本对应的第二文本向量表示;
提取所述第一文本向量表示的第三特征和所述第二文本向量表示的第四特征;以及
至少基于所述知识元素相关度并且还基于所述第三特征和所述第四特征,确定所述第二文本与所述第一文本的文本相关度。
2.根据权利要求1所述的方法,其中所述第一文本包括搜索查询,所述第二文本包括候选文档的至少一部分,并且所述相关度用于确定所述候选文档在针对所述搜索查询的查询结果中的排序。
3.根据权利要求1所述的方法,其中所述第一组知识元素或所述第二组知识元素包括以下至少一项:所述知识库中的实体、所述实体之间的关系和所述实体的属性。
4.根据权利要求1所述的方法,其中确定所述知识元素相关度还包括:
确定所述第一组知识元素和第二组知识元素中在所述知识库中具有相同标识的知识元素的数目,知识元素的标识在所述知识库中唯一标识所述知识元素;以及
还基于具有相同标识的所述知识元素的数目来确定所述知识元素相关度。
5.根据权利要求1所述的方法,其中确定所述知识元素相关度还包括:
确定所述第一文本中用于关联到所述第一组知识元素的第一组文本项与所述第二文本中用于关联到所述第二组知识元素的第二组文本项之间的文本相似度;以及
还基于所述文本相似度来确定所述知识元素相关度。
6.根据权利要求1所述的方法,其中确定所述第一组合向量表示和所述第二组合向量表示包括:
基于知识元素与向量表示之间的第一预定映射关系,确定所述第一组知识元素的第一组向量表示和所述第二组知识元素的第二组向量表示,所述第一组知识元素和所述第二组知识元素中具有所述知识库中的同一标识的知识元素被映射到同一向量表示;
通过将所述第一组向量表示按所述第一组知识元素在所述第一文本中出现的顺序进行组合,来确定所述第一组合向量表示;以及
通过将所述第二组向量表示按所述第二组知识元素在所述第二文本中出现的顺序进行组合,来确定所述第二组合向量表示。
7.根据权利要求6所述的方法,其中所述第一预定映射关系基于所述知识库中的知识元素的主谓宾(SPO)信息来确定。
8.根据权利要求1所述的方法,其中所述第二预定映射关系基于文本项在所述知识库中相关联的知识元素的主谓宾(SPO)信息来确定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910093336.X/1.html,转载请声明来源钻瓜专利网。