[发明专利]云计算中面向节能的Hadoop分布式文件系统存储方法有效
申请号: | 201510061392.7 | 申请日: | 2015-02-05 |
公开(公告)号: | CN104573119B | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 钟将;何隆;杨雷;时待吾 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 重庆市前沿专利事务所(普通合伙)50211 | 代理人: | 陈红 |
地址: | 400020 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 面向 节能 hadoop 分布式 文件系统 存储 策略 | ||
技术领域
本发明涉及计算机大数据领域,尤其涉及一种云计算中面向节能的Hadoop分布式文件系统存储策略。
背景技术
随着云计算技术的不断完善和普及,在继追求性能、容量、容错、安全性等指标之后,绿色节能的概念也逐渐成为该行业内的新标准。在当前已有的围绕Hadoop分布式文件系统节能管理的策略中,一部分主要通过对计算负载分类学习或者实时迁移存储数据等手段来减少服务器运行时的能耗,还有一部分的研究集中在减少对整个数据中心基础设施进行冷却的成本上。现有的方法虽然节能明显,但与传统Hadoop分布式文件系统一样,系统采用基于机架感知的数据块存储策略使得数据块在集群中的分布具有随机性,该策略一方面会导致整个集群的数据分布出现不均衡的情况,特别是有新节点加入的时候,这会造成新增节点的计算和存储能力的浪费;另一方面,不同文件间的访问规律存在巨大差异,如果使Hadoop分布式文件系统集群中所有的数据节点都处于活跃状态,势必造成能耗的增加,导致大量电能被浪费。这就亟需本领域技术人员解决相应的技术问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种云计算中面向节能的Hadoop分布式文件系统存储策略。
为了实现本发明的上述目的,本发明提供了一种云计算中面向节能的Hadoop分布式文件系统存储策略,其特征在于,包括如下步骤:
步骤1,将全部的数据节点进行区域划分,对于全天活跃状态的数据节点划分为热区,对于处于待机状态的数据节点划分为冷区,将新创建的数据文件存储于热区;
步骤2,对于存储于热区的数据文件根据优先匹配策略,将该数据文件存储在经过优先匹配的热区最大数据节点;
步骤3,判断该数据文件的活跃程度,当活跃程度达到阈值范围后,将该数据文件转存到冷区,根据优先匹配策略将该数据文件存储在冷区最大数据节点且该数据节点为活跃状态;
步骤4,对转存在冷区的该数据文件进行活跃程度判断,如果存储该数据文件的冷区数据节点最后一次访问时间与当前时间之差大于节点待机时间阈值Tidle,则将该节点置为待机状态。
所述的云计算中面向节能的Hadoop分布式文件系统存储策略,优选的,所述步骤1包括:
步骤1-1,对于全部数据节点采用主/从架构,包含一个名字节点和多个数据节点,名字节点为管理节点,用于管理数据节点和客户端对数据文件的访问;所存储的数据文件被分成若干数据块,而数据节点则用于存储该数据块;
步骤1-2,数据节点分布在多个机架中,数据节点之间通过机架网络来通讯,每个数据节点定期向名字节点发送心跳信息,报告相应数据节点的工作状态信息和存储的数据块信息;
步骤1-3,在名字节点中设置热节点列表和冷节点列表,该热节点列表和冷节点列表保存数据节点的工作状态信息和存储的数据块信息,一旦数据节点有数据操作时,需要实时更新热节点列表和冷节点列表的数据。
所述的云计算中面向节能的Hadoop分布式文件系统存储策略,优选的,所述步骤2的优先匹配策略为:
对于热区中数据节点,查找名字节点中热节点列表后优先匹配剩余空间最大的数据节点。
所述的云计算中面向节能的Hadoop分布式文件系统存储策略,优选的,所述步骤3的优先匹配策略为:
对于冷区中数据节点,优先匹配剩余空间最大的数据节点时,满足以下两点,
A,直接选择剩余空间最大的节点,获得冷区中存储数据分布不均衡的数据节点;
B,选择的数据节点空间使用率不大于冷区中所有数据节点平均使用率。
所述的云计算中面向节能的Hadoop分布式文件系统存储策略,优选的,所述步骤3包括:
步骤3-1,定时查找遍历热节点列表,将驻留时间超过驻留时间阈值和前一日访问量小于日最低访问量阈值的文件迁移到冷区中;
步骤3-2,其中驻留时间阈值根据数据统计进行确定,最低访问量阈值是根据访问情况来确定;为了最大限度降低文件迁移策略对整个系统的效率和性能的影响,选择在访问的非高峰时段来实施迁移。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本策略针对新闻媒体机构中急需高效管理的海量文本、图片、音频和视频新闻数据,提出了四种存储中所使用的策略,对传统Hadoop分布式文件系统的存储策略进行了优化,从而可以大幅度的降低整个分布式文件系统在运行时所消耗的能量,达到节能降耗的效果,同时可以平衡节点的负载,提高整个系统的计算效能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510061392.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息记录方法
- 下一篇:一种挖掘目标微博用户的方法