[发明专利]基于参数高效的通用检索方法和装置在审

专利信息
申请号: 202310920950.5 申请日: 2023-07-26
公开(公告)号: CN116644196A 公开(公告)日: 2023-08-25
发明(设计)人: 谭咏霖 申请(专利权)人: 北京智谱华章科技有限公司
主分类号: G06F16/383 分类号: G06F16/383;G06F16/31;G06F40/126;G06F40/194
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 薛雅琼
地址: 100084 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 参数 高效 通用 检索 方法 装置
【说明书】:

本申请提出了一种基于参数高效的通用检索方法和装置,涉及信息检索技术领域,其中,该方法包括:获取用户的问题;使用参数高效检索模型根据问题在文档库中进行检索,得到目标文档;其中,使用参数高效检索模型根据问题在文档库中进行检索,得到目标文档,包括:使用参数高效文本编码器基于提示向量序列对问题和文档进行编码,得到问题特征向量和文档特征向量,其中,提示向量序列由提示编码器生成;对问题特征向量和文档特征向量进行相似度计算,得到问题和文档的相似度;对文档库中所有文档与问题的相似度进行比较,将相似度最高的文档作为目标文档。采用上述方案的本申请实现了跨领域场景的高效检索。

技术领域

本申请涉及信息检索技术领域,尤其涉及基于参数高效的通用检索方法和装置。

背景技术

信息检索是指按一定的方式把信息组织起来,根据用户的查询找出相关的信息文档。信息检索领域中的经典方法大致可以划分为:使用布尔表达式来完全匹配文档的布尔模型、以稀疏词向量表示问题和文档的向量空间模型、将单词之间的概率关系集成到模型中的概率模型,以及根据查询的语言概率对文档进行排序的语言模型。随着深度学习在各个研究领域中取得突破,近年来基于神经网络的检索模型也发展起来,大大提升了检索的性能。广义上,目前的信息检索模型方法可以分为稀疏检索模型(Sparse Retriever)和稠密检索模型(Dense Retriever)。

稀疏检索模型是将查询和文档用高维稀疏向量表示的模型,包括传统检索方法TF-IDF和BM25,使用基于计算词语频率的稀疏文本表示来测量查询和文档之间的词匹配。但是这些方法对问题和文档中的每一个词用向量中的一维来表示,忽略词与词之间的顺序关系。用户查询和文档里的用词很可能是不一致的,然而稀疏检索模型无法识别出语义层面的一致。

稠密检索模型可以解决稀疏检索模型中词汇不匹配的问题,基于深度学习中的语义表示研究,稠密检索模型把查询和文档映射到低维语义空间的模型,再计算向量之间的相似度得出检索结果。根据查询和文档编码方法,稠密检索模型可以大致分为双编码器和交叉编码器两种结构。

近年来,深度学习和预训练语言模型在信息检索领域中受到越来越多的关注,具有百万级、十亿级甚至万亿级参数的大规模预训练语言模型促进了信息检索神经方法的进步,提高了检索系统的性能。预训练语言模型通过在下游数据上进行微调来适应下游任务。但随着预训练语言模型规模的参数量变多,训练的成本也会加大:训练消耗内存变大,训练时间变长,模型保存所占空间变多。对于涉及不同领域应用的检索系统来说,为每个领域训练和存储模型都是一笔相当大的开销。

而且,神经信息检索方法的现有工作大部分都是使用大型数据集训练的,在同一个数据集上训练和评测,性能显著超越传统方法。然而,检索系统实际上并不会只应用在原来的数据上,因为针对一个领域去构建大型数据集成本高且数据量有限。目前已有工作的领域内评估并不能说明检索系统的领域外泛化能力如何,近期有工作证明了这些现有工作的领域外泛化能力很差。

所以目前的神经信息检索方法的缺点是:基于预训练语言模型的检索系统参数量大,训练和存储成本高,对于跨领域应用不友好;域外泛化能力差,应用在训练数据以外的数据上时效果变差。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本申请的第一个目的在于提出一种基于参数高效的通用检索方法,解决了现有检索方法对跨领域应用不友好、域外泛化能力差的技术问题,实现了跨领域场景的高效检索。

本申请的第二个目的在于提出一种基于参数高效的通用检索装置。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智谱华章科技有限公司,未经北京智谱华章科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310920950.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top