[发明专利]一种搜索召回方法和装置、服务器、存储介质有效
申请号: | 201710697601.6 | 申请日: | 2017-08-15 |
公开(公告)号: | CN107491518B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 李辰;姜迪;王昕煜;魏轶彬;王璞;何径舟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/332;G06F16/36;G06N3/04 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 召回 方法 装置 服务器 存储 介质 | ||
本发明实施例公开了一种搜索召回方法和装置、服务器、存储介质。其中,搜索召回方法包括:获取用户输入的检索词;利用预先训练的神经网络模型计算所述检索词的语义向量;根据预先建立的索引,从候选文档中召回与所述检索词的语义向量相关的目标文档,其中,所述索引是根据所述候选文档的语义向量建立,所述候选文档的语义向量是根据所述预先训练的神经网络模型计算得到。本发明实施例可以解决现有的召回方法中缺乏对语义的泛化能力,从而影响召回准确性的问题,以提高搜索召回的准确性。
技术领域
本发明实施例涉及互联网技术,尤其涉及一种搜索召回方法和装置、服务器、存储介质。
背景技术
随着互联网技术的快速发展,搜索引擎的功能也日趋强大。搜索通常根据目的和性能分为召回和排序两部分,召回的目的是根据用户输入的检索词,从大量候选网页/文档中筛选一批少量相关的结果;排序的目的是对召回的结果进行优化,使用更精细的特征计算其相关性,并以此为依据作为最后呈现给用户的顺序。
通常,在搜索引擎中使用倒排索引等基于字/词粒度的匹配方法实现召回,通过字/词的倒排拉链出相关结果,并通过TFIDF(term frequency–inverse documentfrequency,是一种用于信息检索与数据挖掘的常用加权技术)、BM25(一种常见用来做相关度打分的公式)等指标对结果进行评价。但是,由于TFIDF、BM25等指标基于字面匹配,缺乏对语义的泛化能力,从而影响召回的准确性。
发明内容
本发明实施例提供一种搜索召回方法和装置、服务器、存储介质,以解决现有的召回方法中缺乏对语义的泛化能力,从而影响召回准确性的问题。
第一方面,本发明实施例提供了一种搜索召回方法,该方法包括:
获取用户输入的检索词;
利用预先训练的神经网络模型计算所述检索词的语义向量;
根据预先建立的索引,从候选文档中召回与所述检索词的语义向量相关的目标文档,其中,所述索引是根据所述候选文档的语义向量建立,所述候选文档的语义向量是根据所述预先训练的神经网络模型计算得到。
第二方面,本发明实施例还提供了一种搜索召回装置,该装置包括:
检索词获取模块,用于获取用户输入的检索词;
语义向量计算模块,用于利用预先训练的神经网络模型计算所述检索词的语义向量;
文档召回模块,用于根据预先建立的索引,从候选文档中召回与所述检索词的语义向量相关的目标文档,其中,所述索引是根据候选文档的语义向量建立,该候选文档的语义向量是根据所述预先训练的神经网络模型计算得到。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的搜索召回方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的搜索召回方法。
本发明实施例通过利用预先训练的神经网络模型计算检索词的语义向量,并根据预先建立的索引,从候选文档中召回与检索词的语义向量相关的目标文档,从而使召回任务可以使用到大数据训练的高质量语义特征,解决了现有的召回方法中缺乏对语义的泛化能力,影响召回准确性的问题,实现提高搜索召回准确性的效果。
附图说明
图1是本发明实施例一中的搜索召回方法的流程图;
图2是本发明实施例二中的搜索召回方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710697601.6/2.html,转载请声明来源钻瓜专利网。