[发明专利]文本匹配方法、装置、设备及存储介质有效
申请号: | 202110942420.1 | 申请日: | 2021-08-17 |
公开(公告)号: | CN113656547B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 沈越 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06N3/0464 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 刘丽华 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 匹配 方法 装置 设备 存储 介质 | ||
1.一种文本匹配方法,其特征在于,所述文本匹配方法包括:
当接收到文本匹配请求时,根据所述文本匹配请求获取搜索语句;
获取预先训练好的语句降维模型,并获取所述语句降维模型的长度需求;
根据所述长度需求对所述搜索语句进行编码处理,得到语句编码;
基于所述语句降维模型分析所述语句编码,得到语句信息;
对所述语句信息进行归一化处理,得到语句特征;
根据所述文本匹配请求获取多个待选文本及每个待选文本对应的待选信息;
对所述待选信息进行过滤处理,得到待选特征;
根据所述语句特征及所述待选特征计算所述搜索语句与每个待选文本的文本相似度;
将所述文本相似度最大的待选文本确定为目标文本。
2.如权利要求1所述的文本匹配方法,其特征在于,所述根据所述文本匹配请求获取搜索语句包括:
解析所述文本匹配请求的报文,得到所述报文携带的数据信息;
从所述数据信息中提取语句路径及语句标识,并计算所述语句路径及所述语句标识的查询总量;
根据所述查询总量获取查询模板;
将所述语句路径及所述语句标识写入所述查询模板中,得到查询语句;
运行所述查询语句,得到所述搜索语句。
3.如权利要求2所述的文本匹配方法,其特征在于,所述根据所述长度需求对所述搜索语句进行编码处理,得到语句编码包括:
对所述搜索语句进行拆分处理,得到多个搜索字符及每个搜索字符的拆分序号;
基于字符映射表获取每个搜索字符的字符向量;
根据所述拆分序号拼接所述字符向量,得到初始编码;
根据所述语句标识确定所述搜索语句所属的语句类型;
拼接预设标识、所述语句类型的类型标识及所述初始编码,得到中间编码,并计算所述中间编码的编码长度;
若所述编码长度大于所述长度需求,根据所述长度需求处理所述中间编码,得到所述语句编码;或者
若所述编码长度小于所述长度需求,以所述编码长度与所述长度需求的长度差值为填充位数,对所述中间编码进行填充处理,得到所述语句编码;或者
若所述编码长度等于所述长度需求,将所述中间编码确定为所述语句编码。
4.如权利要求1所述的文本匹配方法,其特征在于,在获取预先训练好的语句降维模型之前,所述方法还包括:
获取学习器,并获取所述学习器的初始需求;
获取训练样本,所述训练样本包括样本语句及相似文本;
提取所述相似文本的语义编码;
根据所述初始需求对所述样本语句进行编码,得到样本编码;
基于所述学习器对所述样本编码进行降维处理,得到预测编码;
根据所述预测编码与所述语义编码的编码距离调整所述初始需求及所述学习器的网络参数,直至所述编码距离不再降低,得到所述语句降维模型。
5.如权利要求1所述的文本匹配方法,其特征在于,所述语句降维模型包括卷积层、池化层及全连接层,所述基于所述语句降维模型分析所述语句编码,得到语句信息包括:
基于所述卷积层中的多个卷积核对所述语句编码进行特征提取,得到卷积特征;
基于所述池化层中的池化函数筛选所述卷积特征,得到池化结果;
获取所述全连接层中的权值矩阵及偏置值;
计算所述池化结果与所述权值矩阵的乘积,并计算所述乘积与所述偏置值的总和,得到所述语句信息。
6.如权利要求1所述的文本匹配方法,其特征在于,所述对所述待选信息进行过滤处理,得到待选特征包括:
获取预设列表,所述预设列表包括预设停用词及预设符的初始表征;
基于所述初始表征遍历所述待选信息;
从所述待选信息中删除与所述初始表征相同的信息,得到所述待选特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110942420.1/1.html,转载请声明来源钻瓜专利网。