[发明专利]分布式并行计算系统的数据分配方法及系统在审
申请号: | 201611042373.0 | 申请日: | 2016-11-18 |
公开(公告)号: | CN106598729A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 杨黎;付仲明 | 申请(专利权)人: | 深圳市证通电子股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 深圳市世纪恒程知识产权代理事务所44287 | 代理人: | 胡海国 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 并行 计算 系统 数据 分配 方法 | ||
1.一种分布式并行计算系统的数据分配方法,其特征在于,包括:
估算输入数据集中的各个聚类的占用空间;
根据所述输入数据集的各个聚类的占用空间以及预设的各个数据块的剩余空间,建立各个聚类以及存储所述聚类的各个数据块的对应关系;
根据各个聚类以及存储所述聚类的各个数据块的对应关系,将各个所述聚类存储于对应的数据块中。
2.如权利要求1所述的分布式并行计算系统的数据分配方法,其特征在于,所述估算输入数据集中的各个聚类的占用空间的步骤包括:
采用蓄水池抽样算法抽取占所述输入数据集总数据量预设比例的聚类作为数据集样本;
统计所述数据集样本的各个聚类的占用空间;
根据所述数据集样本的各个聚类的占用空间以及所述预设比例确定输入数据集的各个聚类的占用空间。
3.如权利要求2所述的分布式并行计算系统的数据分配方法,其特征在于,所述根据所述输入数据集的各个聚类的占用空间以及各个数据块的剩余空间,建立各个聚类以及存储所述聚类的各个数据块的对应关系的步骤包括:
计算各个数据块的额定容量,所述额定容量等于输入数据集的各个聚类的占用空间的总和除以数据块的数目,其中,各个所述数据块的初始剩余空间等于所述数据块的额定容量;
根据数据块的额定容量,对聚类进行分割组合后划分到不同的数据块中,建立分割组合后的聚类以及存储所述分割组合后的聚类的数据块的对应关系。
4.如权利要求3所述的分布式并行计算系统的数据分配方法,其特征在于,所述根据数据块的额定容量,对聚类进行分割组合后划分到不同的数据块中的步骤包括:
按照占用空间从大到小的顺序依次调用各个聚类,以及按照剩余空间从大到小的顺序调用各个数据块;
在每次调用到聚类时,判断当前调用的聚类的占用空间是否大于当前调用的所述数据块的剩余空间;
在当前调用的聚类的占用空间小于或等于当前调用的所述数据块的剩余空间时,将当前调用的所述聚类划分至当前调用的所述数据块中,并继续调用下一所述聚类;
在当前调用的聚类的占用空间大于当前调用的所述数据块的剩余空间时,根据当前调用的所述数据块的剩余空间对当前调用的所述聚类进行切割;
将切割得到的聚类划分至当前调用的所述数据块,将切割剩余的聚类添加至未调用的聚类中,并调用下一数据块。
5.如权利要求1-4任一项所述的分布式并行计算系统的数据分配方法,其特征在于,所述建立各个聚类以及存储所述聚类的各个数据块的对应关系的步骤之后,所述分布式并行计算系统的数据分配方法还包括:
获取各个聚类的实际占用空间;
在有聚类的所述实际占用空间在估算的所述占用空间中未估算到时,采用默认的哈希算法将所述聚类分配至数据块中;
在有聚类的所述实际占用空间在估算的所述占用空间中估算到时,执行所述根据各个聚类以及存储所述聚类的各个数据块的对应关系,将各个所述聚类存储于对应的数据块中的步骤。
6.一种分布式并行计算系统的数据分配系统,其特征在于,包括:
估算模块,用于估算输入数据集中的各个聚类的占用空间;
关系建立模块,用于根据所述输入数据集的各个聚类的占用空间以及预设的各个数据块的剩余空间,建立各个聚类以及存储所述聚类的各个数据块的对应关系;
分配模块,用于根据各个聚类以及存储所述聚类的各个数据块的对应关系,将各个所述聚类存储于对应的数据块中。
7.如权利要求6所述的分布式并行计算系统的数据分配系统,其特征在于,所述估算模块包括:
样本抽取单元,用于采用蓄水池抽样算法抽取占所述输入数据集总数据量预设比例的聚类作为数据集样本;
样本统计单元,用于统计所述数据集样本的各个聚类的占用空间;
估算单元,用于根据所述数据集样本的各个聚类的占用空间以及所述预设比例确定输入数据集的各个聚类的占用空间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市证通电子股份有限公司,未经深圳市证通电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611042373.0/1.html,转载请声明来源钻瓜专利网。