[发明专利]一种文档获取方法及装置在审
申请号: | 201711148155.X | 申请日: | 2017-11-17 |
公开(公告)号: | CN107943908A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 王伟亮 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司11262 | 代理人: | 李红爽,李丹 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 获取 方法 装置 | ||
1.一种文档获取方法,其特征在于,包括:
确定从倒排索引中选定的每个倒排拉链对应的文档数量;
对于选定的每个倒排拉链,从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。
2.根据权利要求1所述的文档获取方法,其特征在于,所述获取所述倒排拉链对应的预设文档数量的文档之前,还包括:
调用两个或两个以上线程,以通过调用的两个或两个以上线程分别对所述选定的两个或两个以上倒排拉链执行所述获取的步骤。
3.根据权利要求1所述的文档获取方法,其特征在于,所述获取所述倒排拉链对应的文档数量的文档之后,还包括:
若所述倒排拉链中文档的总数量大于所述倒排拉链对应的文档数量,则将所述倒排拉链标识为第一类倒排拉链;若所述倒排拉链中文档的总数量小于所述倒排拉链对应的文档数量,则将所述倒排拉链标识为第二类倒排拉链;
对于每个第二类倒排拉链,计算所述第二类倒排拉链中文档的总数量和所述第二类倒排拉链对应的文档数量之间的差额,根据计算出的差额,从第一类倒排拉链的未被获取到的文档中获取文档。
4.根据权利要求1至3中任一项所述的文档获取方法,其特征在于,所述获取所述倒排拉链对应的文档数量的文档,包括:
按照所述倒排拉链中文档的特征,对所述倒排拉链中的文档进行排序;
从所述倒排拉链的排序后的文档中截取所述倒排拉链对应的文档数量的文档。
5.根据权利要求1至3中任一项所述的文档获取方法,其特征在于,所述确定从倒排索引中选定的每个倒排拉链对应的文档数量,包括:
计算预先设置的需要获取的文档总数量除以所述选定的倒排拉链总数量;
若计算的结果为整数,则将计算的结果作为所述选定的每个倒排拉链对应的文档数量;
若计算的结果为小数,则根据预先设置的策略设置所述选定的每个倒排拉链对应的文档数量。
6.一种文档获取装置,其特征在于,包括:
确定模块,用于确定从倒排索引中选定的每个倒排拉链对应的文档数量;
第一获取模块,用于对于选定的每个倒排拉链,从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。
7.根据权利要求6所述的文档获取装置,其特征在于,还包括:
调用模块,用于调用两个或两个以上线程;
所述第一获取模块用于,通过调用的两个或两个以上线程对所述选定的两个或两个以上倒排拉链执行所述获取的步骤。
8.根据权利要求6所述的文档获取装置,其特征在于,还包括:
标识模块,用于若所述倒排拉链中文档的总数量大于所述倒排拉链对应的文档数量,则将所述倒排拉链标识为第一类倒排拉链;若所述倒排拉链中文档的总数量小于所述倒排拉链对应的文档数量,则将所述倒排拉链标识为第二类倒排拉链;
第二获取模块,用于对于每个第二类倒排拉链,计算所述第二类倒排拉链中文档的总数量和所述第二类倒排拉链对应的文档数量之间的差额,根据计算出的差额,从第一类倒排拉链的未被获取到的文档中获取文档。
9.根据权利要求6至8中任一项所述的文档获取装置,其特征在于,所述第一获取模块包括:
排序单元,用于按照所述倒排拉链中文档的特征,对所述倒排拉链中的文档进行排序;
截取单元,用于从所述倒排拉链的排序后的文档中截取所述倒排拉链对应的文档数量的文档。
10.根据权利要求6至8中任一项所述的文档获取装置,其特征在于,所述确定模块包括:
计算单元,用于计算预先设置的需要获取的文档总数量除以所述选定的倒排拉链总数量;
确定单元,用于若计算的结果为整数,则将计算的结果作为所述选定的每个倒排拉链对应的文档数量;
设置单元,用于若计算的结果为小数,则根据预先设置的策略设置所述选定的每个倒排拉链对应的文档数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711148155.X/1.html,转载请声明来源钻瓜专利网。