[发明专利]对jobTracker主机进行宕机保护的方法和系统有效
申请号: | 201110170328.4 | 申请日: | 2011-06-23 |
公开(公告)号: | CN102841822A | 公开(公告)日: | 2012-12-26 |
发明(设计)人: | 史晓峰;蔡斌;崔小丰;宫振飞;张文郁;韩欣;肖桂菊;邱翔虎;崔晓春 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F11/14 | 分类号: | G06F11/14;G06F9/48 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 郝传鑫;潘中毅 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | jobtracker 主机 进行 保护 方法 系统 | ||
技术领域
本发明涉及分布式计算机领域,尤其涉及一种对任务调度jobTracker主机进行宕机保护的方法和系统。
背景技术
分布式计算平台使用分布式的计算方法,利用多台主机协同运算以处理大规模数据,该平台可以简单,有效,快速地接入各种业务需求。分布式计算平台使用开源项目Hadoop作为其软件支撑,Hadoop是Apache开源组织的一个分布式计算开源框架,包括计算框架(MapReduce实现)和分布式存储(HDFS文件系统)两部分。其中:MapReduce是“任务的分解与结果的汇总”,HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。简言之,Hadoop被设计为存储与计算分离的结构,即MapReduce计算框架与HDFS存储框架是松散耦合的。
在Hadoop中,计算框架MapReduce包括Map和Reduce两个阶段。
在Map阶段,输入任务(文件)被组织成便于分发传递的块,这一过程即split;对这些块文件进行一个用户自定义的Map操作,按照业务的需求将输入数据以<KEY, VALUE>对的形式重新组织并分发出去。
在Reduce阶段,系统收集Map阶段分发的<KEY, VALUE>对,自动将相同KEY的<KEY, VALUE>对传递到同一台Reduce机器上,这一过程即shuffle;对这些<KEY, VALUE>对做归并(merge)、排序(sort)操作之后,对其施加一个用户自定义的Reduce操作。这样就完成了一次MapReduce。
具体的,MapReduce框架是主从结构的。MapReduce运行时,主机(master)启动一个JobTracker(任务调度)进程,用于任务调度。从机(slave)启动数个TaskTracker(任务执行单元)进程,作为运算实体。JobTracker的主要职责就是启动、跟踪和调度各个Slave的任务执行,JobTracker中存储着任务状态信息。每一台Slave通常具有TaskTracker的工作。TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务。
由前面的描述可知,jobTracker在整个系统中承担举足轻重的作用,因此,如何保护jobTracker中的数据尤为重要,当前,如何对jobTracker进行宕机保护函待解决。
发明内容
本发明实施例所要解决的技术问题在于,提供对任务调度jobTracker主机进行宕机保护的方法及系统,以避免单个jobTracker主机任务调度的压力过大,以及避免jobTracker主机单点故障给整个系统造成的重大影响。
具体的,本发明实施例提供的一种对任务调度jobTracker主机进行宕机保护的方法包括:
jobTracker主机队列中的各jobTracker主机以循环方式接收用户任务提交接口机所提交的任务,所述任务包括map任务和reduce任务;
任务执行单元TaskTracker根据各jobTracker主机与任务间的录属关系,将任务执行过程中的任务状态信息上报给对应的jobTracker主机;
jobTracker主机队列中的两两jobTracker主机之间jobTracker主机队列中的两两jobTracker主机之间对管理的任务进行备份并对任务状态信息进行同步。
较佳的,本发明的方法还包括:
当jobTracker主机队列中的一jobTracker主机发生宕机时,通过分布系统协调单元通知TaskTracker,以使所述TaskTracker到宕机的所述jobTracker主机的备份的jobTracker主机上进行任务获取或上报任务状态信息。
较佳的,本发明的方法还包括:
为各jobTracker主机管理的任务加入任务属性信息,所述任务属性信息用于标识所述任务与jobTracker主机之间的录属关系。
较佳的,本发明的方法还包括:
TaskTracker以循环方式依次从各jobTracker主机中获取任务进行执行。
较佳的,本发明的方法还包括,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110170328.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理设备、信息处理方法和程序
- 下一篇:分布式硬盘自动拷贝系统及方法