[发明专利]一种文档获取方法及装置在审
申请号: | 201711148155.X | 申请日: | 2017-11-17 |
公开(公告)号: | CN107943908A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 王伟亮 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司11262 | 代理人: | 李红爽,李丹 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 获取 方法 装置 | ||
技术领域
本发明涉及互联网技术,尤指一种文档获取方法及装置。
背景技术
如今是一个信息大爆炸的时代,据统计全球的数据量正以平均年增长率为50%的速度增长,其中当前数据总量的80%都是最近两年产生的。目前每天全球互联网流量累计达1EB(即10亿GB或1000PB),其中,人们一天上传的照片数量相当于柯达发明胶卷后拍摄的图片总和。这些数据已经渗透到社会经济、大众日常生活的各个角落。如何在数据海洋中获取用户需要的信息,要依赖的工具就是搜索引擎。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
搜索引擎聚合了众多网站信息,起到了信息导航的作用。通用搜索引擎实现了大量的信息整合与导航,极快的查询,迅速成为互联网中最有价值的领域。垂直搜索是针对通用搜索信息量大、查询不准确、深度不够等缺点提出来的新的服务模式,是搜索引擎的细分和延伸,垂直搜索能够针对某一特定领域、某一特定人群或某一特定需求提供的搜索服务。
搜索引擎的核心模块通常包括爬虫、索引、检索和排序这四个步骤。其中,在检索时,具体包括:在倒排索引的所有倒排拉链中选定倒排拉链,串行遍历所有选定的倒排拉链,对所有选定的倒排拉链进行去重处理,在选定的倒排拉链中的一个倒排拉链开始截取预先设置的数量的文档,该预先设置的数量是需要截取的文档的总数量。在检索完对截取的文档进行排序,并将排序后的文档展示到网页上。但是,由于受到截取文档的总数量的限制,并不会截取所有选定的倒排拉链中的文档,导致了在一部分选定的倒排拉链中获取文档,相应地就出现了未从另一部分选定的倒排拉链中获取文档,即未被截取文档的倒排拉链被放弃,如果截取文档的倒排拉链的质量不好,而被放弃的倒排拉链的质量比较好,这就会导致最终展示给用户的文档的质量并不高。
发明内容
本发明实施例提供了一种检索方法及装置,能够提高从倒排拉链中获取文档的质量。
为了达到本发明目的,本发明实施例提供了一种文档获取方法,包括:
确定从倒排索引中选定的每个倒排拉链对应的文档数量;
对于选定的每个倒排拉链,从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。
可选地,所述获取所述倒排拉链对应的预设文档数量的文档之前,文档获取方法还包括:
调用两个或两个以上线程,以通过调用的两个或两个以上线程分别对所述选定的两个或两个以上倒排拉链执行所述获取的步骤。
可选地,所述获取所述倒排拉链对应的文档数量的文档之后,文档获取方法还包括:
若所述倒排拉链中文档的总数量大于所述倒排拉链对应的文档数量,则将所述倒排拉链标识为第一类倒排拉链;若所述倒排拉链中文档的总数量小于所述倒排拉链对应的文档数量,则将所述倒排拉链标识为第二类倒排拉链;
对于每个第二类倒排拉链,计算所述第二类倒排拉链中文档的总数量和所述第二类倒排拉链对应的文档数量之间的差额,根据计算出的差额,从第一类倒排拉链的未被获取到的文档中获取文档。
可选地,所述获取所述倒排拉链对应的文档数量的文档,包括:
按照所述倒排拉链中文档的特征,对所述倒排拉链中的文档进行排序;
从所述倒排拉链的排序后的文档中截取所述倒排拉链对应的文档数量的文档。
可选地,所述确定从倒排索引中选定的每个倒排拉链对应的文档数量,包括:
计算预先设置的需要获取的文档总数量除以所述选定的倒排拉链总数量;
若计算的结果为整数,则将计算的结果作为所述选定的每个倒排拉链对应的文档数量;
若计算的结果为小数,则根据预先设置的策略设置所述选定的每个倒排拉链对应的文档数量。
本发明实施例提供了另一种文档获取装置,包括:
确定模块,用于确定从倒排索引中选定的每个倒排拉链对应的文档数量;
第一获取模块,用于对于选定的每个倒排拉链,从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。
可选地,文档获取装置还包括:
调用模块,用于调用两个或两个以上线程;
所述第一获取模块用于,通过调用的两个或两个以上线程对所述选定的两个或两个以上倒排拉链执行所述获取的步骤。
可选地,文档获取装置还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711148155.X/2.html,转载请声明来源钻瓜专利网。