[发明专利]云平台MapReduce工作流调度优化方法在审
申请号: | 201410315763.5 | 申请日: | 2014-07-03 |
公开(公告)号: | CN104199820A | 公开(公告)日: | 2014-12-10 |
发明(设计)人: | 吴朝晖;何延彰;姜晓红;陈英芝;毛宇 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州裕阳专利事务所(普通合伙) 33221 | 代理人: | 应圣义 |
地址: | 310027 浙江省杭州市浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 平台 mapreduce 工作流 调度 优化 方法 | ||
技术领域
本发明涉及大数据计算领域,特别涉及一种云平台MapReduce工作流调度优化方法,有效地提高了云平台上的工作流调度的优化效率。
背景技术
随着以物联网、社交网站SNS、生物信息学为代表的新型信息发布方式的产生和发展,人类社会的数据种类和数量正在以爆炸式的速度增长,大数据时代已经到来。目前,对于大数据尚未有一个公认的定义,它与传统的“海量数据”、“超大规模数据”等概念的区别,主要体现在大数据需要具备以下三个特点:规模性(volume)、多样性(variety)和高速性(velocity)。据统计,纽约证券交易所每天产生约1TB的交易数据,百度公司每天要处理的数据达到10~100PB。大数据计算可以分为单作业单步计算、单作业迭代计算和多作业工作流计算等,每个作业可以由多个任务并行计算来加快运行的速度,即每个作业可以由若干数据并行的任务构成。
“云计算”为大数据提供了计算平台,它指通过互联网向用户提供的服务,包括基础设施即服务(Infrastructure as a Service)、平台即服务(Platform as a Service)和软件即服务(Software as a Service)。“云计算”通过网络,以付费即用(Pay-as-you-go)的方式,为全世界的用户提供基于效用的信息服务。
按处理模式的不同分,处理大数据的框架可以分为流处理(stream processing)框架和批处理(batch processing)框架。批处理是先把数据存储后再处理(store-then-process),而流处理则是在数据产生后直接处理(straight through processing),在流处理中,数据的价值会随着时间的流逝骤减。大数据工作流可以由批处理作业或者流处理作业构成,现有的大数据处理优化方法只针对单一作业,并没有考虑在云平台运行时的集群租用费用。
鉴于上述问题,在本发明中,我们拟针对云平台上大数据批处理工作流的性能和费用进行优化,以期能够研发一种可以更为有效地在调度过程中维持原 有条件下的优化效率的新型调度优化方法。
发明内容
本发明针对现有技术中,优化方法依赖于初始条件,其优化效果会随时间而变化甚至减弱的缺点,提供了一种云平台MapReduce工作流调度优化方法,可以提供更为稳定的优化效果,有效地提高了工作流调度的优化效率。
为实现上述目的,本发明可采取下述技术方案:
一种云平台MapReduce工作流调度优化方法,包括以下具体步骤:
重构步骤:将用户提交的至少包括一个作业的工作流W重构为一个新的工作流G,所述重构包括:
工作流中的新作业节点组成集合V,以新作业为节点的有向无环图的节点之间的有向边组成集合E,所述新作业包括开始作业JEntry、同步作业JSyn、结束作业JExit以及分支作业JBran,所述开始作业JEntry是指工作流W中没有任何父节点的作业,所述结束作业JExit是指工作流W中没有任何子节点的作业,所述同步作业JSyn同时拥有父节点和子节点,并且具备父节点数量大于等于两个或者子节点数量大于等于两个的性质,所述分支作业JBran是指相互依赖的简单作业JSim的集合,所述相互依赖是指不同的简单作业JSim的有向边能够连通分支作业内所有的简单作业,所述简单作业JSim是指工作流W中只有一个父节点和一个子节点的作业;
计算工作流G中所有作业的输入数据集的大小,并将所述输入数据集的大小组成向量S;
优化步骤:产生初始种群,所述初始种群是指通过对工作流G中的作业赋随机初值得到的个体的集合;通过产生新的个体的方式扩大初始种群内个体的数量得到下一代种群,所述新的个体是指由随机点交叉和/或随机点变异的方式所产生的新的个体;分别计算所述下一代种群中所有个体的工作时间,选取所述下一代种群中的至少一个个体作为优化结果输出。
于本发明的实施例中,还包括历史数据取得步骤;
所述历史数据取得步骤包括:任意选择一个用户提交的工作流W;以不同的作业配置参数以及集群虚拟机节点数目分别运行所述工作流W中的作业;将所述工作流W中的作业的运行结果进行保存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学;,未经浙江大学;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410315763.5/2.html,转载请声明来源钻瓜专利网。