[发明专利]基于BERT的伪相关反馈模型信息检索方法及系统有效
申请号: | 201910546934.8 | 申请日: | 2019-06-24 |
公开(公告)号: | CN110442777B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 何婷婷;王俊美;潘敏;王雪彦;黄翔;应志为 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F16/332;G06F40/211 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 严彦 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 相关 反馈 模型 信息 检索 方法 系统 | ||
本发明提供一种基于BERT的伪相关反馈模型信息检索方法,包括在伪相关反馈的第一轮检索中,首先通过BM25模型对目标文档集合D进行评估,筛选出文档集合D′,再通过BERT模型对文档集合D′中文档再次进行评估,得到文档的BERT得分;将通过BM25检索模型和BERT模型得到的文档得分线性融合,得到伪相关文档集合D1;基于伪相关文档集合D1进行查询扩展选出候选扩展词,再通过BERT句子语义相似度优化候选扩展词,得到最终的扩展词;最终的扩展词与原始查询Q结合,生成新的查询关键词集合,以BM25模型对目标文档集合D进行第二轮检索,得到最终的检索结果。本发明支持在海量信息中去除大量无用和不相关的信息,得出更加精准的候选词,提高扩展查询及最终检索的精度。
技术领域
本发明属于信息检索技术领域,特别涉及将BERT融合到伪相关反馈模型中的信息检索方法及系统。
背景技术
在现代社会环境下,环境互联网技术迅猛发展,实现了全球资源共享,网络资源异常丰富,信息总量迅速膨胀。在网络环境下,人类的生活方式和思维方式都将发生重大变化。数字化环境和信息网络技术影响并改变着人类传统的学习方式,面对浩瀚的信息海洋,人们迫切需要一种更为有效的信息处理技术来应对日益增长的海量数据,应该充分借助于先进的技术去查寻并汲取有用的知识。信息检索作为经典的文本处理技术,能够适应这一要求并迅速成为当前信息处理研究领域中的研究热点。
信息检索(Information Retrieval,简称IR)是指对信息进行预处理、存储和管理,然后找出用户所需信息的过程和技术。信息检索过程可以简单地描述为:用户根据其信息需求,组织一个查询字符串提交给信息检索系统,信息检索系统在文档集中检索出与查询相关的文档子集返回给用户。具体来说是指给定一组特定的查询主题,通过某种信息检索模型,对目标中的所有文档与查询主题进行相关度计算,并将每个文档按得分从大到小的顺序返回,返回的结果中文档越靠前说明该文档与查询主题越相关。
信息检索在实际的应用中,通常会出现用户的查询意图与检索系统给出的查询结果存在偏差的情况,导致检索系统的精度不高。因此,信息检索往往是一个反复的过程,用户常常需要经过多次的查询调整才能获得满意的检索结果。实际问题中,信息检索中由于一般用户往往会出现查询输入不完整或不准确的情况,在信息对比上极易造成检索结果用户需求不匹配的查准率低和检索结果不全面的问题,这时候就需要用到查询扩展技术来改善这一问题。
查询扩展技术(QueryExpansion,简称QE)是提高检索性能的有效手段,通过对用户的初始查询进行扩展和重构,较好地解决了用户查询用词与文档用词不匹配以及用户表达不完整的问题,因而被广泛应用于信息检索领域。查询扩展就是检索系统在进行检索之前,把与原始查询相关的语词、概念等以逻辑的方式添加到原查询中,构成一个新的查询,然后再进行检索的过程。扩展后的新查询可以提供很多有利于判断文档相关性的信息,从而改善查准率和查全率。其中主要的方法有基于全局的、基于相关反馈的、基于伪相关反馈的等,本发明中将其应用到了伪相关反馈查询中。
伪相关反馈(Pseudo Relevance Feedback,简称PRF)是信息检索的一个重要技术分支,它将相关反馈的人工操作部分自动化,因此用户不需要进行额外地交互就可以获得检索性能的提升。该方法首先进行正常的检索过程,返回最相关的文档构成初始集,然后假设排名靠前的N篇文档是相关的,最后在此假设上像以往一样进行相关反馈。伪相关反馈的出现是为了使检索系统更加有效,使检索结果更好地满足用户的查询请求。申请人在日前申请了发明专利《一种基于伪相关反馈模型的信息检索方法及系统》,但是在上篇专利中,第一轮检索中只用到了传统的BM25检索方法,以筛选反馈文档,该反馈文档只包含了词频信息,缺少与原始查询的语义信息,即反馈文档质量不高,然而本专利中提出进一步改进,在筛选反馈文档时,同时采用了传统的BM25方法和BERT方法,使返回的文档序列融入了语义信息,最终提高了反馈文档的质量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910546934.8/2.html,转载请声明来源钻瓜专利网。