[发明专利]一种用于搜索引擎的搜索方法、装置及可编程设备有效

专利信息
申请号: 201710065889.5 申请日: 2017-02-06
公开(公告)号: CN106951434B 公开(公告)日: 2020-03-10
发明(设计)人: 王俊杰;李洋 申请(专利权)人: 广东神马搜索科技有限公司
主分类号: G06F16/953 分类号: G06F16/953
代理公司: 北京博雅睿泉专利代理事务所(特殊普通合伙) 11442 代理人: 杨国权;马佑平
地址: 510627 广东省广州市天河区黄埔大*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 搜索引擎 搜索 方法 装置 可编程 设备
【说明书】:

发明公开了一种用于搜索引擎的搜索方法、装置及可编程设备。该方法包括:接收用户搜索请求以进行解析;将解析后的用户搜索请求发送给多个搜索节点,以使所述搜索节点的每一个根据所述搜索请求在被划分给该节点的网页库特定网页子集中进行搜索,获得匹配所述搜索请求的网页作为搜索结果;每个搜索节点将所述搜索结果反馈给合并节点,以使所述合并节点对所述全部搜索节点反馈的搜索结果进行排序,并按照排序顺序提供输出结果。根据本发明,将搜索与算分进行分离,且搜索在多个搜索节点之间进行,算分也在多个排序节点之间进行,增大了并发处理能力,解决了资源不足的问题。

技术领域

本发明涉及计算机技术领域,更具体地,涉及一种搜索引擎的搜索方法、装置及可编程设备。

背景技术

在现有的搜索系统领域中,一般而言从接收到用户请求,到返回响应数据的整个处理链条可切分成三个部分:候选文档召回、文档集合精排序和最终结果展现。

为了保证服务延迟在合理范围内,候选文档召回部分需要将全部倒排索引加载到内存中进行服务;而文档集合精排序部分为算分模块,通过精准打分选择最符合用户意图的文档。

为了从这些海选文档集中能够精准的选择最符合用户意图的文档,业界通常做法有两种:其一,持续扩大索引容量,提供更多的初选文档集合;其二,设计更加复杂算分模型,比如引入各种复杂的机器学习模型,通过算分提供更精准服务。从保证性能的角度出发,不论索引扩容还是算分模型精准化都需要消耗更多的内存,而受限于单实例资源,二者将因为占用的内存资源达到系统上限而无法继续共存。

因此,发明人认为,有必要对上述现有技术中存在的问题进行改进。

发明内容

本发明的一个目的是提供一种用于增量更新的新技术方案。

根据本发明的第一方面,提供一种用于搜索引擎的搜索方法,包括以下步骤:接收用户搜索请求以进行解析;将解析后的用户搜索请求发送给多个搜索节点,以使所述搜索节点的每一个根据所述搜索请求在被划分给该节点的网页库特定网页子集中进行搜索,获得匹配所述搜索请求的网页作为搜索结果;

每个搜索节点将所述搜索结果反馈给合并节点,以使所述合并节点对所述全部搜索节点反馈的搜索结果进行排序,并按照排序顺序提供输出结果。

特别地,在所述对搜索结果进行排序的步骤中还包括:所述合并节点对所反馈的全部搜索结果进行切分以划分为多个搜索结果子集;

将每个搜索结果子集发送给对应的一个排序节点,以使该排序节点对所述搜索结果子集进行算分并排序,并将算分排序结果反馈给合并节点。

特别地,在所述对搜索结果子集进行算分并排序的步骤中还包括:

所述排序节点将搜索结果集进一步划分为多个计算单元,每个计算单元分配给一个计算执行单元来执行算分,并将算分结果反馈给排序节点。

特别地,每个计算执行单元对应于一个线程。

特别地,所述方法还包括:在预定时间经过后,排序节点判断已反馈算分结果的计算执行单元的比例,并在所述比例达到预定阈值时,停止等待未反馈的计算执行单元的算分结果,并将已反馈的算分结果反馈给合并节点。

特别地,所述方法还包括:为每个网页文件内容计算其哈希值,并以其哈希值作为该网页文件名,以使相同内容的网页文件具有相同的哈希值和文件名,从而避免网页文件内容的重复的网页被多次存储。

根据本发明的第二方面,提供一种用于搜索引擎的搜索装置,包括:接收单元,用于接收用户搜索请求以进行解析;多个搜索节点单元,所述搜索节点单元的每一个根据所述搜索请求在被划分给该节点的网页库特定网页子集中进行搜索,获得匹配所述搜索请求的网页作为搜索结果;合并节点单元,用于对所述全部搜索节点单元反馈的搜索结果进行排序,并按照排序顺序提供输出结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东神马搜索科技有限公司,未经广东神马搜索科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710065889.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top