[发明专利]一种基于MapReduce的数据预取方法有效
申请号: | 201510299063.6 | 申请日: | 2015-06-03 |
公开(公告)号: | CN104933110B | 公开(公告)日: | 2018-02-09 |
发明(设计)人: | 高胜立;薛瑞尼;敖立翔 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 电子科技大学专利中心51203 | 代理人: | 李明光 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于MapReduce的数据预取方法,属于计算机技术领域。本发明方法通过性能评估来预测各计算节点的数据块处理量,并根据一系列的计算来评估哪些计算节点会出现非本地化任务,对于通过计算评估的非本地化任务,在计算节点还未申请处理该任务时就提前预取到计算节点本地,从而使得计算节点不会产生计算等待。本发明的目的是提升MapReduce作业的执行效率和系统的整体吞吐率,从而使得计算节点不需要等待数据块的远程传输,提升计算节点的利用率。本发明提出的预取方法可以同时工作在同构和异构MapReduce集群环境,这种预取的思想也不单单针对MapReduce,所有分布式的计算框架都可以借鉴改进。 | ||
搜索关键词: | 一种 基于 mapreduce 数据 方法 | ||
【主权项】:
一种基于MapReduce的数据预取方法,在拥有n个物理计算节点的集群上,针对得到调度的某个具体作业A,在其实施过程中按以下方法进行数据预取:步骤1:由于集群有同构和异构之分,在计算尚未开始时假设集群是同构的,即假设所有计算节点的计算性能Pi均为1,其中i∈[1,n];对于作业A,假设该作业对应的数据块个数为b个,且每个数据块在HDFS上的默认备份数为3,设各计算节点上的数据块个数为FTi,则总数据块数量∑FTi=3b;为每个计算节点分配第一轮任务,即为每个物理计算节点分配一个数据块,每个计算节点处理其分配到的第一个计算任务,并计算每个物理计算节点处理各自申请的第一个计算任务所需要的时间,由此得到每个物理计算节点的实际计算性能RPTi,其中i=1,…,n;步骤2:统计各计算节点针对作业A还需要处理的任务个数PBTi;步骤3:计算各计算节点完全本地化的概率LP,第i个计算节点完全本地化的概率LPTi=LTi/PBTi,其中LTi为第i个计算节点当前未处理的本地化数据块数量;步骤4:在作业A的任务执行过程中,时刻监测所有计算节点的本地化概率LP值,将所有计算节点按照LP值由低至高进行排序得计算节点序列;步骤5:若所述计算节点序列中第一个计算节点的LP值不小于1,则不作任何操作;若作业A的执行过程中,所述计算节点序列中的前f个节点的LP值小于1,f≥1,将节点记为T1、…、Tf,执行步骤6至步骤12所述的数据预取过程;根据设计要求,节点T1至少还需要分配a=PBT1‑LT1个数据块到其本地其LP值才不小于1;步骤6:锁定节点T1上的所有本地数据块,且节点T1的所有本地数据块在其他节点上对应的数据块备份都不能被调度,已锁定的数据块在其他节点上的备份数据块不能参与到所有节点的本地化概率LP的计算中;步骤7:针对剩余的n‑1个计算节点,按步骤6所述条件重新计算各自的本地化概率LP,并按照LP值由低至高进行排序得新的计算节点序列T2、…、Tn;步骤8:在新的节点序列T2、…、Tn中,从其最后一个计算节点Tn开始由后向前选取一个最先同时满足以下三个条件的节点Tt并从该节点选取一个满足以下条件的数据块bt:1)所述节点Tt的本地化概率LPt大于1;2)从节点Tt提取一个数据块bt,且该数据块bt的备份数据块所在节点的本地化概率均大于1;3)将数据块bt从节点Tt中剔除,重新计算节点Tt的本地化概率LPt_2,此时新的本地化概率LPt_2不小于1;数据块bt的备份数据块所在的节点也要满足上述要求,即把所述备份数据块从其所在节点中剔除,并重新计算这些节点的本地化概率,计算所得的本地化概率均不小于1;步骤9:将满足步骤8所述三个条件的数据块bt从其原先所在的节点预取至节点T1中;步骤10:重复执行至少a次步骤6至步骤9的操作过程,使节点T1的本地化数据块数量至少增加a个,由此使得节点T1的本地化概率LP不小于1,即节点T1已完全本地化;步骤11:在完成节点T1的完全本地化之后,锁定节点T1上的所有本地数据块,且节点T1的所有本地数据块在其他节点上对应的备份数据块都不能被调度,已锁定的数据块在其他节点上的备份数据块不能参与到所有节点的本地化概率LP的计算中;步骤12:针对剩余的n‑1个计算节点,按步骤11的条件重新计算各个节点的本地化概率LP值并按照LP值由低至高进行排序构建新的计算节点序列,按步骤5至步骤11所述方法对本步骤所得的新的计算节点序列进行操作;按上述方法,可使所有计算节点的本地化概率LP值不小于1,由此完成数据预取过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510299063.6/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置