[发明专利]一种生成索引文档ID的方法及装置在审
申请号: | 201510464988.1 | 申请日: | 2015-07-31 |
公开(公告)号: | CN105005624A | 公开(公告)日: | 2015-10-28 |
发明(设计)人: | 杨乾磊;詹丽 | 申请(专利权)人: | 天脉聚源(北京)传媒科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京尚伦律师事务所 11477 | 代理人: | 张亮 |
地址: | 100007 北京市东城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生成 索引 文档 id 方法 装置 | ||
1.一种生成索引文档ID的方法,其特征在于,包括:
接收由客户端发送来的文件;
存储所述文件的信息,所述文件的信息分布在至少一个服务器中,每个服务器有至少一个分表;
获取存储的所有分表的数量、各个所述分表的序号和循环处理的次数;
根据所述所有分表的数量、所述各个分表的序号和所述循环处理的次数,计算所述文件的索引文档ID;
所述根据所述所有分表的数量、所述各个分表的序号和所述循环处理的次数,计算所述文件的索引文档ID,包括:
根据以下公式计算索引文档ID:
ID=id
其中,符号ID为所述索引文档ID,符号id
所述符号id
所述文件的索引文档ID的初始值为0,表示所述文件未被处理。
2.根据权利要求1所述的方法,其特征在于,在生成所述索引文档ID之前,还包括:
根据哈希算法依此计算所述文件的哈希值;
根据所述哈希值将所述文件匹配到相对应的所述分表。
3.根据权利要求2所述的方法,其特征在于,所述根据所述哈希值将所述文件匹配到相对应的所述分表,包括:
将所述哈希值的整个取值范围均等的划分为多个数值区间,所述多个数值区间的数量和所有所述分表的数量相同,且所述数值区间与所述分表一一对应;
将所述文件的哈希值在某一个数值区间段内的所有所述文件,匹配到同一个所述分表。
4.根据权利要求1的方法,其特征在于,还包括:
每个所述分表都拥有各自独立的所述循环处理的次数。
5.一种生成索引文档ID的装置,其特征在于,包括:
接收模块,用于接收由客户端发送来的文件;
存储模块,用于存储所述文件的信息,所述文件的信息分布在至少一个服务器中,每个服务器有至少一个分表;
获取模块,用于获取存储的所有分表的数量、各个所述分表的序号和循环处理的次数;
第一计算模块,用于根据所述所有分表的数量、所述各个分表的序号和所述循环处理的次数,计算所述文件的索引文档ID;
所述第一计算模块,包括:
计算子模块,用于根据以下公式计算索引文档ID:
ID=id
其中,符号ID为所述索引文档ID,符号id
自增子模块,用于所述符号id
所述文件的索引文档ID的初始值为0,表示所述文件未被处理。
6.根据权利要求5所述的装置,其特征在于,还包括:
第二计算模块,用于在所述第一计算模块计算所述文件的索引文档ID之前,根据哈希算法依此计算所述文件的哈希值;
匹配模块,用于根据所述哈希值将所述文件匹配到相对应的所述分表。
7.根据权利要求6所述的装置,其特征在于,所述匹配模块,包括:
划分子模块,用于将所述哈希值的整个取值范围均等的划分为多个数值区间,所述多个数值区间的数量和所有所述分表的数量相同,且所述数值区间与所述分表一一对应;
匹配子模块,用于将所述文件的哈希值在某一个数值区间段内的所有所述文件,匹配到同一个所述分表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天脉聚源(北京)传媒科技有限公司,未经天脉聚源(北京)传媒科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510464988.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于混合高斯的SDN流聚类方法
- 下一篇:一种训练数据的处理方法及装置