[发明专利]一种检索相似文本的方法、装置以及存储介质有效
申请号: | 201910345077.5 | 申请日: | 2019-04-26 |
公开(公告)号: | CN110110045B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 赵瑞辉;乔倩倩;韦伟 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/284;G06F40/30 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检索 相似 文本 方法 装置 以及 存储 介质 | ||
本发明实施例公开了一种检索相似文本的方法、装置以及存储介质,其中检索相似文本的方法包括:获取待检索文本,所述待检索文本包括多个待检索词;根据每个待检索词之间的第一关联关系,获取所述待检索文本的特征向量;基于所述待检索词与候选词信息中的候选词之间的第二关联关系、所述候选词信息以及所述特征向量,生成所述待检索文本对应的计算文本;根据所述计算文本与预设文本库中的候选文本的匹配度,确定与所述计算文本匹配的候选文本作为相似文本,该方案可以提高召回率和检索结果的准确性。
技术领域
本发明涉及通信技术领域,具体涉及一种检索相似文本的方法、装置以及存储介质。
背景技术
用户在使用搜索引擎进行信息搜索时,往往会出现输入的搜索词和获得的搜索结果中同一个词的概念出现不一致的情况。为了提高搜索结果的召回率,通常需要对用户输入的搜索词进行扩展操作,以扩大对搜索词的搜索范围,从而提高搜索结果的准确率。
然而,现有技术中虽然存在对搜索词进行扩展的方案,但是,现有的方案可能会出现扩展词的语义与搜索词的语义发生漂移的问题,因此,现有方案的召回率差,检索结果的准确性不高。
发明内容
本发明实施例提供一种检索相似文本的方法、装置以及存储介质,可以提高召回率和检索结果的准确性。
本发明实施例提供了一种检索相似文本的方法,包括:
获取待检索文本,所述待检索文本包括多个待检索词;
根据每个待检索词之间的第一关联关系,获取所述待检索文本的特征向量;
基于所述待检索词与候选词信息中的候选词之间的第二关联关系、所述候选词信息以及所述特征向量,生成所述待检索文本对应的计算文本;
根据所述计算文本与预设文本库中的候选文本的匹配度,确定与所述计算文本匹配的候选文本作为相似文本。
相应的,本发明实施例还提供了一种检索相似文本的装置,包括:
第一获取模块,用于获取待检索文本,所述待检索文本包括多个待检索词;
第二获取模块,用于根据每个待检索词之间的第一关联关系,获取所述待检索文本的特征向量;
生成模块,用于基于所述待检索词与候选词信息中的候选词之间的第二关联关系、所述候选词信息以及所述特征向量,生成所述待检索文本对应的计算文本;
确定模块,用于根据所述计算文本与预设文本库中的候选文本的匹配度,确定与所述计算文本匹配的候选文本作为相似文本。
可选的,在本发明的一些实施例中,所述第二获取模块具体用于:
采用预设循环残差模型中的第一循环残差网络对所述待检索文本以及多个第一关联关系进行处理,生成所述待检索文本的特征向量。
可选的,在本发明的一些实施例中,所述第二获取模块,包括:
第一生成子单元,用于基于所述待检索文本中的待检索词的位置信息,生成所述待检索文本的文本向量;
第二生成子单元,用于采用预设循环残差模型中的第一循环残差网络对所述文本向量进行处理,生成所述待检索文本对应的特征向量,其中,所述特征向量包括每个待检索词之间的第一关联关系。
可选的,在本发明的一些实施例中,还包括:
计算模块,用于采用预设循环残差模型中的全局注意力网络对所述特征向量进行计算,得到所述特征向量对应的中间向量;
所述生成模块具体用于:基于所述待检索词与候选词信息中的候选词之间的第二关联关系、所述候选词信息以及所述中间向量,生成所述待检索文本对应的计算文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910345077.5/2.html,转载请声明来源钻瓜专利网。