[发明专利]文本检索方法、模型训练方法、文本检索装置及存储介质有效
申请号: | 202010086368.X | 申请日: | 2020-02-11 |
公开(公告)号: | CN111274808B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 陈晓军;崔恒斌 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30;G06F16/35 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 郭曼 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 检索 方法 模型 训练 装置 存储 介质 | ||
本说明书涉及一种文本检索方法包括:对接收的第一文本进行分词,得到至少一个词语;根据所述至少一个词语从知识库中召回至少一个第二文本;将所述至少一个词语输入经过训练的文本向量模型,得到所述第一文本的文本向量;根据所述第一文本的向量从所述知识库中召回至少一个第三文本;以及将所述至少一个第二文本和所述至少一个第三文本进行融合,得到文本检索结果。本说明书还提供了词权重模型和文本向量模型的训练方法、文本检索装置、电子设备以及计算机可读存储介质。
技术领域
本说明书涉及自然语言处理技术领域,尤其涉及一种文本检索方法、模型训练方法、文本检索装置、电子设备以及计算机可读存储介质。
背景技术
文本检索(Text Retrieval)亦称为自然语言检索,是指根据文本内容,如文本所包含的词语、语意等对文本集合进行检索、分类、过滤等处理。文本检索与图像检索、声音检索、图片检索等都是信息检索的一部分。通常,文本检索的结果可以通过准确率和召回率这两大基本指标进行衡量。其中,准确率通常是指检索到的相关文档除以所有被检索到的文档得到的比率;召回率也称查全率,通常是指检索出的相关文档与相关文档总数的比率。因此,如何提高文本检索的准确率或召回率是文本检索需要解决的关键问题。
发明内容
有鉴于此,本说明书的实施例提出了一种文本检索方法,该方法可以包括:对接收的第一文本进行分词,得到至少一个词语;根据所述至少一个词语从知识库中召回至少一个第二文本;将所述至少一个词语输入经过训练的文本向量模型,得到所述第一文本的文本向量;根据所述第一文本的向量从所述知识库中召回至少一个第三文本;以及将所述至少一个第二文本和所述至少一个第三文本进行融合,得到文本检索结果。
在本说明书的实施例中,上述根据所述至少一个词语从知识库中召回至少一个第二文本可以包括:分别确定所述至少一个词语的词权重;根据所述至少一个词语的词权重从所述至少一个词语中确定至少一个关键词;以及根据所述至少一个关键词从知识库中召回至少一个第二文本。
在本说明书的实施例中,上述分别确定所述至少一个词语的词权重可以包括:将所述至少一个词语分别输入经过训练的词权重模型,得到所述至少一个词语的词权重。
在本说明书的实施例中,上述词权重模型可以包括:编码器以及线性变换层;其中,所述编码器分别对所述至少一个词语进行编码,得到所述至少一个词语的词向量;所述线性变换层分别将所述至少一个词语的词向量进行线性变换,得到所述至少一个词语的词权重。
在本说明书的实施例中,上述分别确定至少一个词语的词权重可以包括:根据词频-逆文本频率指数TF-IDF算法确定所述至少一个词语的词权重。
在本说明书的实施例中,上述将所述至少一个第二文本和所述至少一个第三文本进行融合可以包括:将所述至少一个第二文本和所述至少一个第三文本求并集,得到所述文本检索结果。
在本说明书的实施例中,上述将所述至少一个第二文本和所述至少一个第三文本进行融合可以包括:将所述至少一个第二文本和至少一个第三文本分别输入经过训练的文本向量模型,确定所述至少一个第二文本的文本向量和所述至少一个第三文本的文本向量;将所述至少一个第二文本的文本向量求平均,得到第二文本的平均向量,并对所述第二文本的平均向量进行线性变换,得到第二文本的平均权重;将所述至少一个第三文本的文本向量求平均,得到第三文本的平均向量,并对所述第三文本的平均向量进行线性变换,得到第三文本的平均权重;响应于所述第二文本的平均权重大于或等于所述第三文本的平均权重,确定所述至少一个第二文本为所述文本检索结果;以及响应于所述第二文本的平均权重值小于所述第三文本的平均权重,确定所述至少一个第三文本为所述文本检索结果。
本说明书的实施例提出了一种训练词权重模型的方法,该方法可以包括:
获取训练数据,所述训练数据包括多个训练文本以及每一个训练文本对应的已知输出;其中,每一个训练文本包括至少一个第二词语;所述已知输出为所述至少一个第二词语的词权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010086368.X/2.html,转载请声明来源钻瓜专利网。