[发明专利]文本检索方法、模型训练方法、文本检索装置及存储介质有效
申请号: | 202010086368.X | 申请日: | 2020-02-11 |
公开(公告)号: | CN111274808B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 陈晓军;崔恒斌 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30;G06F16/35 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 郭曼 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 检索 方法 模型 训练 装置 存储 介质 | ||
1.一种文本检索方法,所述方法包括:
对接收的第一文本进行分词,得到至少一个词语;
根据所述至少一个词语在知识库中进行词语召回,召回至少一个第二文本;
将所述至少一个词语输入经过训练的文本向量模型,得到所述第一文本的文本向量;
根据所述第一文本的向量在所述知识库中进行向量召回,召回至少一个第三文本;以及
将所述至少一个第二文本和所述至少一个第三文本进行融合,得到文本检索结果。
2.根据权利要求1所述的方法,其中,根据所述至少一个词语从知识库中召回至少一个第二文本包括:
分别确定所述至少一个词语的词权重;
根据所述至少一个词语的词权重从所述至少一个词语中确定至少一个关键词;以及
根据所述至少一个关键词从知识库中召回至少一个第二文本。
3.根据权利要求2所述的方法,其中,分别确定所述至少一个词语的词权重包括:将所述至少一个词语分别输入经过训练的词权重模型,得到所述至少一个词语的词权重。
4.根据权利要求3所述的方法,所述词权重模型包括:
编码器以及线性变换层;其中,
所述编码器分别对所述至少一个词语进行编码,得到所述至少一个词语的词向量;
所述线性变换层分别将所述至少一个词语的词向量进行线性变换,得到所述至少一个词语的词权重。
5.根据权利要求2所述的方法,其中,分别确定所述至少一个词语的词权重包括:根据词频-逆文本频率指数TF-IDF算法确定所述至少一个词语的词权重。
6.根据权利要求1所述的方法,所述将所述至少一个第二文本和所述至少一个第三文本进行融合包括:
将所述至少一个第二文本和所述至少一个第三文本求并集,得到所述文本检索结果。
7.根据权利要求1所述的方法,所述将所述至少一个第二文本和所述至少一个第三文本进行融合包括:
将所述至少一个第二文本和至少一个第三文本分别输入经过训练的文本向量模型,确定所述至少一个第二文本的文本向量和所述至少一个第三文本的文本向量;
将所述至少一个第二文本的文本向量求平均,得到第二文本的平均向量,并对所述第二文本的平均向量进行线性变换,得到第二文本的平均权重;
将所述至少一个第三文本的文本向量求平均,得到第三文本的平均向量,并对所述第三文本的平均向量进行线性变换,得到第三文本的平均权重;
响应于所述第二文本的平均权重大于或等于所述第三文本的平均权重,确定所述至少一个第二文本为所述文本检索结果;以及
响应于所述第二文本的平均权重值小于所述第三文本的平均权重,确定所述至少一个第三文本为所述文本检索结果。
8.根据权利要求3所述的方法,其中,所述词权重模型的训练方法包括:
获取训练数据,所述训练数据包括多个训练文本以及每一个训练文本对应的已知输出;其中,每一个训练文本包括至少一个第二词语;所述已知输出为所述至少一个第二词语的词权重;
针对每个训练文本,
将所述至少一个第二词语输入编码器,根据所述编码器的参数的当前值生成所述至少一个第二词语的词向量;
将所述至少一个第二词语的词向量输入线性变换层,根据所述线性变换层的参数的当前值生成所述至少一个第二词语的词权重,并将所述至少一个第二词语的词权重作为所述训练文本的预测输出;
根据所述训练文本的预测输出和已知输出之间的误差确定一个梯度;
将所述梯度反向传播给所述编码器和所述线性变换层以联合地调整所述编码器和所述线性变换层的参数的当前值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010086368.X/1.html,转载请声明来源钻瓜专利网。