[发明专利]一种hadoop数据存储方法和装置在审

申请号：	201710799237.4	申请日：	2017-09-07
公开（公告）号：	CN107566496A	公开（公告）日：	2018-01-09
发明（设计）人：	辛永欣	申请（专利权）人：	郑州云海信息技术有限公司
主分类号：	H04L29/08	分类号：	H04L29/08
代理公司：	北京安信方达知识产权代理有限公司11262	代理人：	李红爽,李丹
地址：	450018 河南省郑州市***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 hadoop 数据存储方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明实施例涉及数据存储技术，尤指一种hadoop数据存储方法和装置。

背景技术

随着互联网和分布式计算技术的发展，出现了越来越多的数据密集型应用，这些应用常常需要涉及数TB(太字节)的数据，如何高效、可靠而又方便地处理大量的数据成为当前一个重要研究方向，并且如何可靠而且合理地存放海量数据是Hadoop(一种分布式系统基础架构)体系中的一个重要问题。Hadoop将数据的多个副本存放在集群中的不同机器上，当有节点失效时，其仍然可以读取数据。但另一方面，由于MapReduce中的运算常常需要输入大量的数据，而大量数据的移动会显著影响运算的性能，所以数据的存放应当遵循本地性的原则，即数据应当距离运算节点较近，从而减少因数据移动带来的性能损失。HDFS(Hadoop分布式文件系统)目前的副本放置策略如下：如果写入者在一个数据节点DataNode上，那么第一个副本在本机，否则随机选取一个节点。第二个副本先在另一个机架上，第三个副本被放置在同第二个副本同一机架，但不同的数据节点上。该方案存在以下问题：随机选取的机架的节点可能会由于距离本地节点太远而增加不必要的数据恢复时间，同时随机选取节点也不能保证节点之间数据存储的平衡。由于系统中节点的失效是常态，数据恢复时不必要的性能损失会导致整个存储系统性能下降。

发明内容

为了解决上述技术问题，本发明实施例提供了一种hadoop数据存储方法，能够实现数据存放的负载均衡，又能实现良好的数据传输性能。

为了达到本发明实施例目的，本发明实施例提供了一种hadoop数据存储方法，包括：

当接收到用户提交的数据存储请求时，名字节点NameNode从多个不同机架中随机选取预设数量的数据节点DataNode；

获取预设数量的DataNode中各个DataNode在网络拓扑中到当前DataNode的距离信息以及各个DataNode当前存放的数据副本数量；

根据该距离信息以及数据副本数量计算每个DataNode的调度评价值；

根据计算出的调度评价值选取数据存放节点。

可选地，当接收到用户提交的数据存储请求时，名字节点NameNode从多个不同机架中随机选取预设数量的数据节点DataNode包括：

根据该数据存储请求，NameNode调用预设的副本放置策略BlockPlacementPolicy；其中，该BlockPlacementPolicy的节点选取函数chooseTarget()中增加有网络拓扑NetworkTopology类成员变量clusterMap；

根据clusterMap的节点选择函数Node chooseRandom(String scope)从多个不同机架中获得随机的DataNode。

可选地，获取预设数量的DataNode中各个DataNode在网络拓扑中到当前DataNode的距离信息包括：

根据clusterMap的目标距离函数intgetDistance(Node node1，Node node2)获得各个DataNode与当前DataNode之间的网络距离。