[发明专利]一种分布式数据处理方法及装置在审
申请号: | 201611178256.7 | 申请日: | 2016-12-19 |
公开(公告)号: | CN106776026A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 邓怡豪 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙)11276 | 代理人: | 宋菲,刘兰兰 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种分布式数据处理方法及装置,涉及数据处理技术领域,该方法包括将在同一数据集中的出现次数大于预设次数的键对应的数据确定为倾斜数据,将包含倾斜数据的数据集确定为倾斜数据集,将未包含倾斜数据的数据集确定为非倾斜数据集;根据预设的键标记集合,为倾斜数据集中的每个数据的原始键分别添加一个键标记;将非倾斜数据集进行扩容,根据键标记集合,为扩容后的非倾斜数据集中的每个数据的原始键分别添加一个键标记;按照预设的数据分配规则,将处理后的倾斜数据集以及处理后的非倾斜数据集中的各个数据分配给多台服务器进行分布式处理。由此可见,本发明使数据更加均匀地分配到服务器上,提高了分布式数据处理效率。 | ||
搜索关键词: | 一种 分布式 数据处理 方法 装置 | ||
【主权项】:
一种分布式数据处理方法,包括:将在同一数据集中的出现次数大于预设次数的键对应的数据确定为倾斜数据,将包含倾斜数据的数据集确定为倾斜数据集,将未包含倾斜数据的数据集确定为非倾斜数据集;根据预设的键标记集合,为所述倾斜数据集中的每个数据的原始键分别添加一个键标记,得到处理后的倾斜数据集;其中,所述键标记集合中包含N个不同的键标记,N为自然数;将所述非倾斜数据集中的每个数据复制为N个,得到扩容后的非倾斜数据集,根据所述键标记集合,为所述扩容后的非倾斜数据集中的每个数据的原始键分别添加一个键标记,得到处理后的非倾斜数据集;按照预设的数据分配规则,将所述处理后的倾斜数据集以及所述处理后的非倾斜数据集中的各个数据分配给多台服务器进行分布式处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611178256.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种计算机集群作业调度方法及其装置
- 下一篇:一种工作负载预测方法及装置