[发明专利]一种检索相似文本的方法、装置以及存储介质有效
申请号: | 201910345077.5 | 申请日: | 2019-04-26 |
公开(公告)号: | CN110110045B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 赵瑞辉;乔倩倩;韦伟 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/284;G06F40/30 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检索 相似 文本 方法 装置 以及 存储 介质 | ||
1.一种检索相似文本的方法,其特征在于,包括:
获取待检索文本,所述待检索文本包括多个待检索词;
根据每个待检索词之间的第一关联关系,获取所述待检索文本的特征向量;
根据所述第一关联关系以及第二关联关系,计算候选词信息中的每个候选词在所述特征向量中的权重,其中,所述第二关联关系为基于预设循环残差模型中的第二循环残差网络生成的所述待检索词与所述候选词之间的关联关系;
根据多个权重以及所述特征向量,生成所述特征向量对应的中间向量;
基于所述待检索词与候选词信息中的候选词之间的第二关联关系、所述候选词信息以及所述中间向量,生成所述待检索文本对应的计算文本;
根据所述计算文本与预设文本库中的候选文本的匹配度,确定与所述计算文本匹配的候选文本作为相似文本。
2.根据权利要求1所述的方法,其特征在于,所述根据每个待检索词之间的第一关联关系,获取所述待检索文本的特征向量,包括:
采用预设循环残差模型中的第一循环残差网络对所述待检索文本以及多个第一关联关系进行处理,生成所述待检索文本的特征向量。
3.根据权利要求2所述的方法,其特征在于,所述采用预设循环残差模型中的第一循环残差网络对所述待检索文本以及多个第一关联关系进行处理,生成所述待检索文本的特征向量,包括:
基于所述待检索文本中的待检索词的位置信息,生成所述待检索文本的文本向量;
采用预设循环残差模型中的第一循环残差网络对所述文本向量进行处理,生成所述待检索文本对应的特征向量,其中,所述特征向量包括每个待检索词之间的第一关联关系。
4.根据权利要求1所述的方法,其特征在于,所述基于所述待检索词与候选词信息中的候选词之间的第二关联关系、所述候选词信息以及所述中间向量,生成所述待检索文本对应的计算文本,包括:
采用所述第二循环残差网络对所述候选词信息进行处理,得到候选向量;
根据所述第二关联关系、所述候选向量以及所述中间向量,生成计算文本。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第二关联关系、所述候选向量以及所述中间向量,生成计算文本,包括:
提取所述候选词信息的位置标识,所述位置标识包括起始标识和终止标识;
根据所述起始标识、所述第二关联关系以及所述中间向量,确定所述待检索文本对应的当前计算词;
根据所述起始标识、第二关联关系、中间向量以及当前计算词,确定所述待检索文本对应的第i个计算词,直至识别到所述终止标识为止,其中,所述i为正整数。
6.根据权利要求4所述的方法,其特征在于,所述采用预设循环残差模型中的第二循环残差网络对所述候选词信息进行处理,得到候选向量,包括:
提取每个候选词之间的第三关联关系;
采用所述第二循环残差网络对所述候选词信息以及多个第三关联关系进行处理,生成候选向量。
7.根据权利要求1所述的方法,其特征在于,所述根据所述计算文本与预设文本库中的候选文本的匹配度,确定与所述计算文本匹配的候选文本作为相似文本,包括:
判断所述计算文本与预设文本库中的候选文本的匹配度是否大于或等于预设匹配度;
若所述计算文本与预设文本库中的候选文本的匹配度大于或等于预设匹配度,则确定与所述计算文本匹配的候选文本作为相似文本。
8.根据权利要求1所述的方法,其特征在于,在所述获取待检索文本之前,还包括:
设置基础文本库,并根据所述基础文本库获取互联网信息;
根据所述互联网信息对所述基础文本库进行更新,得到候选文本库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910345077.5/1.html,转载请声明来源钻瓜专利网。