[发明专利]一种检索相似文本的方法、装置以及存储介质有效

申请号：	201910345077.5	申请日：	2019-04-26
公开（公告）号：	CN110110045B	公开（公告）日：	2021-08-31
发明（设计）人：	赵瑞辉;乔倩倩;韦伟	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/284;G06F40/30
代理公司：	深圳翼盛智成知识产权事务所(普通合伙) 44300	代理人：	黄威
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种检索相似文本方法装置以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种检索相似文本的方法、装置以及存储介质，其中检索相似文本的方法包括：获取待检索文本，所述待检索文本包括多个待检索词；根据每个待检索词之间的第一关联关系，获取所述待检索文本的特征向量；基于所述待检索词与候选词信息中的候选词之间的第二关联关系、所述候选词信息以及所述特征向量，生成所述待检索文本对应的计算文本；根据所述计算文本与预设文本库中的候选文本的匹配度，确定与所述计算文本匹配的候选文本作为相似文本，该方案可以提高召回率和检索结果的准确性。

技术领域

本发明涉及通信技术领域，具体涉及一种检索相似文本的方法、装置以及存储介质。

背景技术

用户在使用搜索引擎进行信息搜索时，往往会出现输入的搜索词和获得的搜索结果中同一个词的概念出现不一致的情况。为了提高搜索结果的召回率，通常需要对用户输入的搜索词进行扩展操作，以扩大对搜索词的搜索范围，从而提高搜索结果的准确率。

然而，现有技术中虽然存在对搜索词进行扩展的方案，但是，现有的方案可能会出现扩展词的语义与搜索词的语义发生漂移的问题，因此，现有方案的召回率差，检索结果的准确性不高。

发明内容

本发明实施例提供一种检索相似文本的方法、装置以及存储介质，可以提高召回率和检索结果的准确性。

本发明实施例提供了一种检索相似文本的方法，包括：

获取待检索文本，所述待检索文本包括多个待检索词；

根据每个待检索词之间的第一关联关系，获取所述待检索文本的特征向量；

基于所述待检索词与候选词信息中的候选词之间的第二关联关系、所述候选词信息以及所述特征向量，生成所述待检索文本对应的计算文本；

根据所述计算文本与预设文本库中的候选文本的匹配度，确定与所述计算文本匹配的候选文本作为相似文本。