[发明专利]一种基于Hadoop分布式文件系统的三级缓存方法在审
申请号: | 201410455411.X | 申请日: | 2014-09-09 |
公开(公告)号: | CN104270412A | 公开(公告)日: | 2015-01-07 |
发明(设计)人: | 孙知信;谢怡;宫婧 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210046 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Hadoop分布式文件系统的三级缓存方法,其包括三个大的步骤:步骤一、数据本地化处理的任务调度;步骤二、数据在本地内存的局部性访问;步骤三、本地内存数据的重复利用。本发明所提出的方法能够提高数据命中率,减少数据传输量,提升MapReduce的执行效率。 | ||
搜索关键词: | 一种 基于 hadoop 分布式 文件系统 三级 缓存 方法 | ||
【主权项】:
一种基于Hadoop分布式文件系统的三级缓存方法,采用Apache Hadoop实现,其方法如下:步骤一、数据本地化处理的任务调度,又包含下列子步骤:第1步、用户向Jobtrack提交作业请求,Jobtrack获取Job所要读取的数据范围以及把作业分解成若干个Map任务和Reduce任务;第2步、Jobtrack根据每个Map任务所要读取的数据,通过访问NameNode的元数据来获取存放这些数据的DataNode位置;第3步、空闲的Tasktrack节点定时向Jobtrack汇报自己的情况,Jobtrack从这些空闲的Tasktrack节点中选择有目标数据的DataNode,并将相应的Map任务分配到该节点中;步骤二、数据在本地内存的局部性访问,又包含如下子步骤:第1步、将服务器的内存空间分成大小相等的若干存储区域,每一块区域称之为页框;第2步、每一页是最基本的内存分配,在每一页的底部预留字节来存放指向下一页的地址或者表示该数据块已结束,每个数据块在内存中表示为一串页的链表;第3步、内存中维护一张数据块调入信息表,当内存中的数据块达到了存储空间的上限,新的数据块需要调入时,使用最近最久未使用置换算法来执行数据块的替换;另外,内存中还维护一张存储页面表的位示图;步骤三、本地内存数据的重复利用:第1步、在Master服务器中维护一张全局缓存信息管理表,负责记录每个Slave节点的缓存信息以及该节点是否有足够的Slot资源,每个Slave服务器定时向Master服务器发送信息,汇报自己的缓存信息和Slot资源信息;第2步、当Jobtrack进行任务调度时,首先检查全局缓存信息表,如果发现缓存中有Map任务所需的数据,则优先分配该任务,倘若没有则遵循数据本地化处理的调度策略。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410455411.X/,转载请声明来源钻瓜专利网。