[发明专利]一种基于Hadoop集群的网络预测与调度方法在审
申请号: | 201510767233.9 | 申请日: | 2015-11-11 |
公开(公告)号: | CN105429893A | 公开(公告)日: | 2016-03-23 |
发明(设计)人: | 申彦明;王志刚 | 申请(专利权)人: | 大连理工大学 |
主分类号: | H04L12/801 | 分类号: | H04L12/801;H04L12/911;H04L29/08 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 潘迅;梅洪玉 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hadoop 集群 网络 预测 调度 方法 | ||
技术领域
本发明属于计算机应用技术领域,涉及一种基于Hadoop集群的网络预测与调度方法。
背景技术
随着信息和数据爆炸式增长,海量数据处理平台日益重要。Hadoop是一个能够进行分布式处理的存储计算平台,具有优异的可靠性和可扩展性,它凭借着高容量和低成本的双重优势,展现了对于海量数据良好的处理能力。
Hadoop依据MapReduce编程模型,将一个任务分为map任务与reduce任务,在这之间存在shuffle阶段用来将map的结果传输到reduce所在的节点。由于网络传输速度远远小于计算机内部数据传输速度,所以在shuffle阶段,网络传输已经成为限制作业完成时间的一个“瓶颈”。如何提高shuffle阶段网络传输速度已经成为越来越多学者研究的课题。目前,对于网络预测最常见的方法就是在网络层通过对交换机的分析得出网络流量,根据网络情况将各个流分配到合适的路径上。这种方法存在问题:在预测方面,由于采用TCP网络传输协议的拥塞控制会导致在传输中监测的结果没有真实反映出对网络的真实需求,而且这种方法是被动的;在大数据多作业的情况下,网络流之间有相互依赖的关系,仅仅考虑流的调度可能会造成作业的滞后。
发明内容
为了解决现有问题,本发明提供了一种基于Hadoop集群的网络预测与调度方法,该方法从应用层来分析网络流量并且考虑网络流之间的依赖关系。
为了达到上述目的,本发明采用的技术方案是:
本发明详细分析Hadoop运行过程,中间结果组织方式,提取相关信息;采用实时监控的方法分析Hadoop中间结果,提取出每个作业(Hadoop程序)的map与reduce之间所需传递的数据量;将采集到的信息传递到中央控制器中为网络调度提供依据。
一种基于Hadoop集群的网络预测与调度方法,通过分析Hadoop运行所产生的中间临时文件,从应用层角度预测网络流量;根据预测的网络流量信息,考虑Hadoop运行时网络流之间的相互依赖关系,以网络流所属Hadoop的作业(Hadoop程序)为单位,按照优先级的高低对网络流进行调度,具体包括以下步骤:
第一步,预测:整体Hadoop集群的预测采用C/S模式,在集群的每个节点运行监控程序;
1)Hadoop采用MapReduce编程模型,一个Hadoop作业分为map任务和reduce任务,Hadoop作业在map任务的执行结果并没有存储到其自身提供的HDFS文件系统中,而是暂时储存在相应节点的本地磁盘上;利用Linux本身的inotify机制,从Hadoop运行时产生的中间数据中提取出Hadoop应用对网络的需求;所述的中间数据的组织形式分为工作目录和日志目录,工作目录和日志目录随着Hadoop任务的运行临时创建和删除;
2)由于inotify只支持监测存在的文件,设计动态监测系统对工作目录和日志目录进行实时监测,首先在工作目录和日志目录分别监测各自子目录创建事件,然后在子目录创建其子目录的创建事件,以此类推,直到监测到“attempt_xxxx_xxx”目录和“container_xxxx_xxx”目录。
对于工作目录,监测attempt_xxxx_xxx目录下file.out.index的创建事件,按照file.out.index的存储格式解析出该map向每个reduce传输的数据量;
对于日志目录,提取出container_xxxx_xxx目录下的作业ID;监测container_xxxx_xxx目录下syslog的修改事件,Hadoop具有“先写日志后操作”的特点,Hadoop中每个reduce最多向5个map请求抓取数据,从syslog的修改事件中提取关于该map与reduce的发送日志信息,解析出网络数据流的目的地址,将提取的时间作为各对map/reduce网络传输的网络时间预测,判断每一对map/reduce何时开始进行传输,由于在map节点进行预测,所以网络数据流的源地址就是本机的IP地址。
3)将“源地址,数据量,目的地址,作业ID,时间”的五元组信息发送给中央控制器,中央控制器以作业ID为单位存储预测信息,按照先来先服务的原则,将最先监测到的网络流所属的作业设置为最高优先级,下一个监测到的网络流所属的作业设置为次高优先级,依次类推将监测到的作业设置相应优先级。
第二步,调度:根据网络数据流之间的相互关系进行调度
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510767233.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电力通信网中业务路由选择方法及装置
- 下一篇:指示灯可遮挡式无线路由器