[发明专利]基于HDFS的副本平衡方法有效
申请号: | 201410321195.X | 申请日: | 2014-07-07 |
公开(公告)号: | CN104063501A | 公开(公告)日: | 2014-09-24 |
发明(设计)人: | 罗光春;田玲;陈爱国;舒康 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都希盛知识产权代理有限公司 51226 | 代理人: | 陈泽斌 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于HDFS的副本平衡方法,其在集群配置项中设计抽象Performance类,并通过心跳信息收集各DataNode的性能数据,在数据迁移时,DataNode的匹配除了需要符合现有Balancer程序的节点匹配规则外,还需要参考DataNode的性能指标数据,按照DataNode的性能评分和存储量的比值进行评价,并在评价最优和评价最差的DataNode之间进行匹配,使DataNode存放的数据量正比于DataNode的性能,提高HDFS分布式文件系统负载均衡能力,提升集群性能。在组建集群时,无需考虑集群中各节点配置的性能差异。 | ||
搜索关键词: | 基于 hdfs 副本 平衡 方法 | ||
【主权项】:
基于HDFS的副本平衡方法,包括以下步骤:1)、集群配置:设计用于代表DataNode性能评价指标的Performance类,Performance类提供一个用于获得对应的性能数据的getPerformance方法;定义对应DataNode各性能指标的性能类,性能类是继承Performance类的子类;在HDFS通讯协议的心跳信息中增加对应性能类的性能指标数据;2)、数据收集:DataNode通过getPerformance方法收集与各性能类对应的性能指标数据;然后由DataNode定时发送心跳信息,将上述与各性能类对应的性能指标数据发送给NameNode,并由NameNode保存上述与各性能类对应的性能指标数据;3)、执行Balancer程序:3.1、由Rebalance Server从NameNode中获取各DataNode的性能指标数据;3.2、根据获取的性能指标数据,计算各DataNode性能评分;3.3、计算各DataNode性能评分与其存储量的比值α,以及各DataNode的α值的平均值αavg;3.4、通过Balancer命令的threshold参数获取允许的性能误差范围,根据αavg结合threshold参数确定DataNode性能的目标范围;将α值优于目标范围的DataNode、α值在目标范围内的DataNode以及α值差于目标范围的DataNode划分为Qover、Qmid、Qunder三个队列;3.5、匹配DataNode,包括如下步骤:3.5.1、若Qunder和Qover均非空,则将Qunder中DataNode和Qover中的DataNode进行匹配;若Qunder为空而Qover非空,则将Qmid中性能最差的DataNode和Qover中的DataNode进行匹配;若Qunder非空而Qover为空,则将Qmid中性能最优的DataNode与Qunder中的DataNode进行匹配;3.5.2、若3.5.1选取的两DataNode符合Balancer程序的节点匹配规则,则执行DataNode的匹配,进入步骤3.6,否则重复步骤3.5.1;3.6、数据块选择:从待迁出DataNode中选择数据块,若数据块符合Balancer程序的数据块选取规则,则执行数据迁移任务,否则重新选择数据块;3.7、完成数据迁移任务后,重新计算迁出DataNode和迁入DataNode的α值,并将两者放入合适的队列中;3.8、重复3.5、3.6和3.7,直至Qover和Qunder均为空。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410321195.X/,转载请声明来源钻瓜专利网。