[发明专利]一种HDFS副本再复制改进方法有效
申请号: | 201910710730.3 | 申请日: | 2019-08-02 |
公开(公告)号: | CN110457280B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 张静;潘雨哲 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F9/50 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 颜盈静 |
地址: | 210012 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hdfs 副本 复制 改进 方法 | ||
本发明公开了一种HDFS副本再复制改进方法,当元节点检测到数据节点无效时,执行HDFS副本再复制改进策略,包括获取失效数据节点上的副本数据块序列;计算副本数据块序列中所有副本数据块的访问热度值,按照访问热度值从大到小对副本数据块进行排序,得到新的副本数据块序列;基于节点负载动态加权评价模型,选取数据节点的复制起点和终点,将新的副本数据块序列中的所有副本数据块依次执行复制。
技术领域
本发明属于分布式计算领域,具体为一种基于数据块热度的副本再复制策略,主要应用于副本技术即分布式数据复制技术。
背景技术
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分可移植操作系统接口(POSIX)约束,来实现流式读取文件系统数据的目的。
目前,HDFS副本再复制策略缺陷:HDFS集群运行时,数据节点会定期向元节点发送心跳信息,元节点通过心跳信息来检测数据节点是否发生错误,若元节点在约定周期内未收到来自某个数据节点的心跳信息,则将其标记为宕机,该数据节点上存储的副本数据不再有效,元节点不会再发I/O请求给它。这时元节点启动副本再复制操作,首先从缺损数据块的数据节点中随机挑选一个数据节点作为数据块再复制的起点,然后再从不包含这个数据块的数据节点中随机挑选一个数据节点作为复制终点,然后启动复制。然后,实际的集群运行时,数据节点之间的负载情况千差万别,这样随机选取的方法很可能加重某些访问量很大的数据节点,而另外一些节点的磁盘利用率和I/O吞吐量较小。另外,失效数据节点中的数据块的请求量也不同,默认策略会导致客户端对热点数据块的请求迟迟得不到响应,大大增加数据服务器的I/O响应时间,降低用户的访问体验。
发明内容
本发明目的在于针对HDFS默认副本再复制策略的缺陷,本发明提出了基于数据块热度的副本再复制策略。
技术方案:一种HDFS副本再复制改进方法,当元节点检测到数据节点无效时,执行HDFS副本再复制改进策略,包括以下步骤:
步骤1:获取失效数据节点上的副本数据块序列;
步骤2:计算副本数据块序列中所有副本数据块的访问热度值,按照访问热度值从大到小对副本数据块进行排序,得到新的副本数据块序列;
步骤3:基于节点负载动态加权评价模型,选取数据节点的复制起点和终点,将新的副本数据块序列中的所有副本数据块依次执行复制。
进一步的,所述副本数据块的访问热度值由下式得到:
Ht(bj)=αHt-1(bj)+(1-α)At(bj), (2)
式中,At(bj)为t时刻副本数据块bj的访问请求到达数量,λj为单位时间内到达副本数据块bj的访问请求到达平均数量;
式中,Ht(bj)为t时刻副本数据块bj的访问热度,αHt-1(bj)为上一个时刻副本数据块bj的访问热度,α为上一时刻访问热度对当前访问热度的影响权重。
进一步的,所述节点负载动态加权评价模型为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910710730.3/2.html,转载请声明来源钻瓜专利网。