[发明专利]基于BERT的伪相关反馈模型信息检索方法及系统有效

申请号：	201910546934.8	申请日：	2019-06-24
公开（公告）号：	CN110442777B	公开（公告）日：	2022-11-18
发明（设计）人：	何婷婷;王俊美;潘敏;王雪彦;黄翔;应志为	申请（专利权）人：	华中师范大学
主分类号：	G06F16/9532	分类号：	G06F16/9532;G06F16/332;G06F40/211
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	严彦
地址：	430079 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于BERT的伪相关反馈模型信息检索方法，包括在伪相关反馈的第一轮检索中，首先通过BM25模型对目标文档集合D进行评估，筛选出文档集合D′，再通过BERT模型对文档集合D′中文档再次进行评估，得到文档的BERT得分；将通过BM25检索模型和BERT模型得到的文档得分线性融合，得到伪相关文档集合D1；基于伪相关文档集合D1进行查询扩展选出候选扩展词，再通过BERT句子语义相似度优化候选扩展词，得到最终的扩展词；最终的扩展词与原始查询Q结合，生成新的查询关键词集合，以BM25模型对目标文档集合D进行第二轮检索，得到最终的检索结果。本发明支持在海量信息中去除大量无用和不相关的信息，得出更加精准的候选词，提高扩展查询及最终检索的精度。
搜索关键词：	基于 bert 相关反馈模型信息检索方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于BERT的伪相关反馈模型信息检索方法，其特征在于：包括以下操作，在伪相关反馈的第一轮检索中，首先通过BM25模型对目标文档集合D进行评估，得到文档的BM25得分，筛选出得分前a篇文档，记为文档集合D′，再通过BERT模型对文档集合D′中文档再次进行评估，得到文档的BERT得分；其中，a为预设的取值；将通过BM25检索模型和BERT模型得到的文档得分线性融合，得到最终的文档得分，取得分最高的前N篇文档作为伪相关文档集合D₁；基于伪相关文档集合D₁进行查询扩展选出候选扩展词，再通过BERT句子语义相似度优化候选扩展词，得到最终的扩展词；其中，N为预设的取值；最终的扩展词与原始查询Q结合，生成新的查询关键词集合，以BM25模型对目标文档集合D进行第二轮检索，得到最终的检索结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华中师范大学，未经华中师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910546934.8/，转载请声明来源钻瓜专利网。

上一篇：适用于多模态交互式陪伴机器人的搜索响应方法及装置
下一篇：通过cookie文件获取用户偏好的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于BERT的伪相关反馈模型信息检索方法及系统有效

专利文献下载