[发明专利]文件数据的分布式多副本存储方法在审
申请号: | 201710636934.8 | 申请日: | 2017-07-31 |
公开(公告)号: | CN110019082A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 刘哲;胡伦良;张海斌 | 申请(专利权)人: | 普天信息技术有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/11;G06F16/13 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 衣淑凤;宋志强 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件访问频率 副本存储 文件副本 副本 文件数据 删除 分布式文件系统 级别降低 确定文件 删除处理 设置文件 维护文件 客户端 上传 预设 申请 相符 发现 | ||
本申请提出文件数据的分布式多副本存储方法。方法包括:预设多个文件访问频率级别以及每个文件访问频率级别对应的文件副本数,其中,文件访问频率级别越高对应的文件副本数越多;接收新上传的文件,设置文件的文件访问频率级别为最高级别;利用分布式文件系统客户端对文件进行分片,以及按照最高级别的文件访问频率对应的文件副本数,对文件的分片执行多副本存储处理;维护文件的文件访问频率;当发现文件的文件访问频率级别降低时,根据降低后的级别对应的文件副本数,确定文件需删除的副本数,根据该需删除的副本数,对文件的所有分片的副本进行与该需删除的副本数相符的删除处理。本申请降低了文件数据的分布式多副本存储成本。
技术领域
本发明涉及分布式文件存储技术领域,尤其涉及文件数据的分布式多副本存储方法。
背景技术
Hadoop是一个并行处理海量数据的工具。HDFS(the Hadoop Distributed FileSystem,Hadoop分布式文件系统)主要用于大数据文件的分析。其特点是将一个超大文件分解成多个小文件,部署到多台低配置机器上进行存储和分析。
分布式多副本策略指的是,对于由超大文件分解成的多个小文件中的每个小文件,分别创建多个副本,该多个副本分别存储在不同的机器上。
分布式多副本策略的缺陷主要体现在:
一、HDFS整体存储成本较高。以常用的3副本策略为例,实际所需存储空间为存储数据容量的3倍,直接增加了存储硬件成本。
二、HDFS处理效率降低。多副本策略增加了文件索引的建立时间,并且增加了NameNode(文件记录节点)的内存消耗。其中,NameNode用于创建并存储每个副本的描述信息。
三、负载均衡能力不足。多副本策略对系统中的数据均维持相同数目的副本数量而不是区别对待,导致系统无法根据需求动态调整副本数目。
发明内容
本发明提供文件数据的分布式多副本存储方法,以降低文件数据的分布式多副本存储成本。
本发明的技术方案是这样实现的:
一种文件数据的分布式多副本存储方法,预先设置多个文件访问频率级别,设置每个文件访问频率级别对应的文件副本数,其中,文件访问频率级别越高对应的文件副本数越多,该方法包括:
接收到新上传的文件,设置所述文件的文件访问频率级别为最高级别;
利用分布式文件系统客户端对所述文件进行分片,以及按照最高级别的文件访问频率对应的文件副本数,对所述文件的分片执行多副本存储处理;
维护所述文件的文件访问频率;
当发现所述文件的文件访问频率级别降低时,根据降低后的级别对应的文件副本数,确定所述文件需删除的副本数,根据该需删除的副本数,对所述文件的所有分片的副本进行与该需删除的副本数相符的删除处理。
预先为每个级别设置一个文件描述队列;
所述设置所述文件的文件访问频率级别为最高级别进一步包括:
将所述文件的文件描述信息放入最高级别的文件访问频率对应的文件描述队列中,所述文件描述信息包括:文件名和文件的接收时间;
所述对所述文件的分片执行多副本存储处理包括:
为所述文件的每个分片分配存储该分片的每个副本的数据节点,将每个分片的每个副本分别存储到对应的数据节点上。
所述方法进一步包括:
接收到用户输入的读文件指令,该指令携带时间段,根据该时间段,在文件描述队列中查找对应的文件名;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710636934.8/2.html,转载请声明来源钻瓜专利网。