[发明专利]一种搜索召回方法和装置、服务器、存储介质有效

专利信息
申请号: 201710697601.6 申请日: 2017-08-15
公开(公告)号: CN107491518B 公开(公告)日: 2020-08-04
发明(设计)人: 李辰;姜迪;王昕煜;魏轶彬;王璞;何径舟 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F16/31 分类号: G06F16/31;G06F16/332;G06F16/36;G06N3/04
代理公司: 北京品源专利代理有限公司 11332 代理人: 孟金喆
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 搜索 召回 方法 装置 服务器 存储 介质
【权利要求书】:

1.一种搜索召回方法,其特征在于,包括:

获取用户输入的检索词;

利用预先训练的神经网络模型计算所述检索词的语义向量;

根据预先建立的索引,从候选文档中召回与所述检索词的语义向量相关的目标文档,其中,所述索引是根据所述候选文档的语义向量建立,所述候选文档的语义向量是根据所述预先训练的神经网络模型计算得到;

其中,所述神经网络模型的训练过程包括:

从搜索引擎累计的用户日志中,抽取根据各检索词展现给用户的条目,将所述条目中用户点击的条目作为训练正样本,将用户无点击的条目作为训练负样本;

从所述用户日志中,随机抽取出预设数量的条目作为随机负样本,并且该随机抽取的条目在所有检索词下均无点击;

获取各检索词的分词信息;

根据所述分词信息,从预先建立的倒排索引中获取各检索词的相关检索词,其中,所述倒排索引是指根据所述用户日志中各检索词及其分词信息,预先建立的分词信息与候选检索词的倒排索引;

从所述用户日志中,获取与所述相关检索词对应的召回条目中用户无点击的条目作为相似负样本;

根据所述训练正样本、训练负样本、随机负样本和相似负样本训练所述神经网络模型。

2.根据权利要求1所述的搜索召回方法,其特征在于,所述根据各检索词的相关检索词从所述用户日志中获取相似负样本,还包括:

将所述相似负样本与对应的各检索词的训练正样本进行去重。

3.根据权利要求1所述的搜索召回方法,其特征在于,所述根据预先建立的索引从候选文档中召回与所述检索词的语义向量相关的目标文档,包括:

计算所述检索词的语义向量与所述索引中候选文档的语义向量的相似度;

根据所述索引,召回所述相似度满足预设条件的语义向量对应的候选文档作为所述目标文档。

4.一种搜索召回装置,其特征在于,包括:

检索词获取模块,用于获取用户输入的检索词;

语义向量计算模块,用于利用预先训练的神经网络模型计算所述检索词的语义向量;

文档召回模块,用于根据预先建立的索引,从候选文档中召回与所述检索词的语义向量相关的目标文档,其中,所述索引是根据候选文档的语义向量建立,该候选文档的语义向量是根据所述预先训练的神经网络模型计算得到;

模型训练模块,用于训练所述神经网络模型;

所述模型训练模块包括:

第一样本抽取单元,用于从搜索引擎累计的用户日志中,抽取根据各检索词展现给用户的条目,将所述条目中用户点击的条目作为训练正样本,将用户无点击的条目作为训练负样本;

第二样本抽取单元,用于从所述用户日志中,随机抽取出预设数量的条目作为随机负样本,并且该随机抽取的条目在所有检索词下均无点击;

第三样本抽取单元,用于根据各检索词的相关检索词,从所述用户日志中获取相似负样本;

模型训练单元,用于根据所述训练正样本、训练负样本、随机负样本和相似负样本训练所述神经网络模型;

其中,所述第三样本抽取单元包括:

分词子单元,用于获取各检索词的分词信息;

相关检索词获取子单元,用于根据所述分词信息,从预先建立的倒排索引中获取各检索词的相关检索词,其中,所述倒排索引是指根据所述用户日志中各检索词及其分词信息,预先建立的分词信息与候选检索词的倒排索引;

相似负样本获取子单元,用于从所述用户日志中获取与所述相关检索词对应的召回条目中用户无点击的条目作为所述相似负样本。

5.根据权利要求4所述的搜索召回装置,其特征在于,所述第三样本抽取单元还包括:

去重子单元,用于将所述相似负样本与对应的各检索词的训练正样本进行去重。

6.根据权利要求4所述的搜索召回装置,其特征在于,所述文档召回模块包括:

计算单元,用于计算所述检索词的语义向量与所述索引中候选文档的语义向量的相似度;

召回单元,用于根据所述索引,召回所述相似度满足预设条件的语义向量对应的候选文档作为所述目标文档。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710697601.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top