[发明专利]云平台MapReduce工作流调度优化方法在审
申请号: | 201410315763.5 | 申请日: | 2014-07-03 |
公开(公告)号: | CN104199820A | 公开(公告)日: | 2014-12-10 |
发明(设计)人: | 吴朝晖;何延彰;姜晓红;陈英芝;毛宇 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州裕阳专利事务所(普通合伙) 33221 | 代理人: | 应圣义 |
地址: | 310027 浙江省杭州市浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 平台 mapreduce 工作流 调度 优化 方法 | ||
1.一种云平台MapReduce工作流调度优化方法,其特征在于,包括以下具体步骤:
重构步骤(100):将用户提交的至少包括一个作业的工作流W重构为一个新的工作流G,所述重构包括:
工作流中的新作业节点组成集合V,以新作业为节点的有向无环图的节点之间的有向边组成集合E,所述新作业包括开始作业JEntry、同步作业JSyn、结束作业JExit以及分支作业JBran,所述开始作业JEntry是指工作流W中没有任何父节点的作业,所述结束作业JExit是指工作流W中没有任何子节点的作业,所述同步作业JSyn同时拥有父节点和子节点,并且具备父节点数量大于等于两个或者子节点数量大于等于两个的性质,所述分支作业JBran是指相互依赖的简单作业JSim的集合,所述相互依赖是指不同的简单作业JSim之间的有向边能够连通分支作业内所有的简单作业,所述简单作业JSim是指工作流W中只有一个父节点和一个子节点的作业;
计算工作流G中所有作业的输入数据集的大小,并将所述输入数据集的大小组成向量S;
优化步骤(200):产生初始种群,所述初始种群是指通过对工作流G中的作业赋随机初值得到的个体的集合;通过产生新的个体的方式扩大初始种群内个体的数量得到下一代种群,所述新的个体是指由随机点交叉和/或随机点变异的方式所产生的新的个体;分别计算所述下一代种群中所有个体的工作时间,选取所述下一代种群中的至少一个个体作为优化结果输出。
2.根据权利要求1所述的云平台MapReduce工作流调度优化方法,其特征在于,还包括历史数据取得步骤(300);
所述历史数据取得步骤(300)包括:任意选择一个用户提交的工作流W;
以不同的作业配置参数以及集群虚拟机节点数目分别运行所述工作流W中的作业;将所述工作流W中的作业的运行结果进行保存。
3.根据权利要求2所述的云平台MapReduce工作流调度优化方法,其特征在于,所述历史数据取得步骤(300)还包括:对运行于不同的作业配置参数以及集群虚拟机节点数目下的所述工作流W中的作业的运行结果进行拟合,得到拟合后曲线的参数。
4.根据权利要求2所述的云平台MapReduce工作流调度优化方法,其特征在于,所述作业配置参数包括Mapper数量NM、Reducer数量NR、输入数据的大小SInput以及集群虚拟机节点的数目NCluster,所述输入数据以分块的形式进行存储,所述NM、NR或NCluster不大于NBlock,所述NBlock是指所述输入数据的分块数目。
5.根据权利要求4所述的云平台MapReduce工作流调度优化方法,其特征在于,所述输入数据以64MB每块的大小进行分块。
6.根据权利要求1所述的云平台MapReduce工作流调度优化方法,其特征在于,所述初始种群或者下一代种群的染色体为
{NM1,NR1,NCluster1,NM2,NR2,NCluster2,…,NM(k+1),NR(k+1),NCluster(k+1)}。
7.根据权利要求6所述的云平台MapReduce工作流调度优化方法,其特征在于,所述染色体中每个元素包含两位数字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学;,未经浙江大学;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410315763.5/1.html,转载请声明来源钻瓜专利网。