[发明专利]基于静态Cache的搜索方法、索引数据生成方法以及装置有效
申请号: | 201410352816.0 | 申请日: | 2014-07-23 |
公开(公告)号: | CN105335402B | 公开(公告)日: | 2018-12-04 |
发明(设计)人: | 史可晶;罗涛 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 | 代理人: | 冯德魁 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 静态 cache 搜索 方法 索引 数据 生成 以及 装置 | ||
本申请公开了一种基于静态Cache的搜索方法和装置、一种用于静态Cache的索引数据生成方法和装置、以及一种用于获取查询语法树标识的方法和装置。其中,基于静态Cache的搜索方法包括:接收客户端的搜索请求;根据搜索请求中的查询信息生成查询语法树;在查询语法树中查找预先生成的高频语法树,并按照从根节点到叶子节点的顺序用预先计算出的高频语法树的唯一标识替换查询信息中、与高频语法树对应的部分查询信息;所述高频语法树的唯一标识用于在检索阶段从索引库中快速召回与部分查询信息对应的搜索结果;根据替换后的查询信息对索引库进行检索,并将搜索结果返回客户端。采用上述方法,能够减少搜索引擎进行倒排召回的性能开销,提高搜索引擎的检索性能。
技术领域
本申请涉及搜索引擎技术,具体涉及一种基于静态Cache的搜索方法和装置。本申请同时提供一种用于静态Cache的索引数据生成方法和装置,以及一种用于获取查询语法树标识的方法和装置。
背景技术
随着互联网的快速发展,网络信息得到爆炸式增长,为了快速地获取所需的信息,用户通常借助搜索引擎。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的相关信息展示给用户的系统。
缓存(Cache)技术是搜索引擎中被广泛采用的一种提高引擎性能的技术,该技术将常用的查询词及搜索结果、以及与查询相关的索引数据或者是搜索的中间结果存放在缓存中,当接收到用户发起的搜索请求时,通过将搜索请求中的查询信息与缓存中的数据进行匹配,能够有效减少搜索引擎的在线计算量,快速地将搜索结果返回给用户。现有技术中的Cache技术主要分为动态Cache和静态Cache两种。
采用动态Cache技术,系统会记录一段时间内最频繁访问的查询,并将这些查询结果存放于系统Cache中,当系统再次接受到上述频繁访问的查询时,可以将针对此查询已经缓存的结果直接返回给用户。
采用静态Cache技术,系统会首先统计先前查询日志中频繁出现的Query查询,并根据这些频繁出现的Query查询计算对应的Hash值并进行打标标记。在对商品数据建引擎索引时,根据商品数据出现高频Query查询数据的情况打上相应的标记,如果在线计算阶段判断出查询串出现高频Query的情况,便通过标记召回快速检索出对应的文档。现有静态Cache技术的处理对象通常是文档中固定的某一维字段(通常为文本字段如商品的标题字段),对搜索请求的处理通常也是基于单层逻辑与关系的,例如:“A”AND“B”。
随着商务搜索需求的日益增多,客观上要求搜索引擎具备在商品数据集中进行多维度(标题、类目、属性等)、以及复杂逻辑关系(逻辑与、逻辑或、逻辑非)的快速检索功能,然而现有的静态Cache技术因为仅能针对一维字段和单层逻辑与进行处理,因此对于上述复杂检索需求的商务搜索来说,搜索引擎通常要执行多次根据倒排索引召回检索结果的操作,导致搜索引擎性能低下,无法很好地满足线上实时返回搜索结果的需求,从而无法对商务搜索提供有效的支持。
发明内容
本申请提供一种基于静态Cache的搜索方法和装置,以提升搜索效率。本申请另外提供一种用于静态Cache的索引数据生成方法和装置,以及一种用于获取查询语法树标识的方法和装置。
本申请提供一种基于静态Cache的搜索方法,包括:
接收来自客户端的搜索请求;
根据搜索请求中包含的查询信息,生成查询语法树;
在所述查询语法树中查找是否存在预先生成的高频语法树;若存在,按照从根节点到叶子节点的顺序用预先计算出的所述高频语法树的唯一标识替换所述查询信息中的、与所述高频语法树对应的部分查询信息;所述高频语法树的唯一标识用于在检索阶段从索引库中快速召回与所述部分查询信息对应的搜索结果;
根据替换后的查询信息对索引库进行检索,获取与所述搜索请求对应的搜索结果,并返回给所述客户端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410352816.0/2.html,转载请声明来源钻瓜专利网。