[发明专利]HDFS集群高可用部署方法、系统、设备及存储介质在审
申请号: | 201910543171.1 | 申请日: | 2019-06-21 |
公开(公告)号: | CN110362381A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 汪涵 | 申请(专利权)人: | 深圳市汇川技术股份有限公司 |
主分类号: | G06F9/455 | 分类号: | G06F9/455;G06F9/50 |
代理公司: | 深圳市顺天达专利商标代理有限公司 44217 | 代理人: | 陆军 |
地址: | 518101 广东省深圳市龙华*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集群 管理节点 数据节点 宿主机 可用 上传 存储介质 仓库 创建 宿主 数字化转型 资源利用率 管理容器 集群部署 集群创建 配置文件 数据存储 硬件设备 主管理 部署 门槛 配置 资金 | ||
本发明实施例提供了一种HDFS集群高可用部署方法、系统、设备及存储介质,所述方法包括:为所述HDFS集群创建管理节点镜像和数据节点镜像,所述管理节点镜像和数据节点镜像分别包括将所述HDFS集群配置为高可用模式的配置文件;将所述管理节点镜像和数据节点镜像分别上传至镜像仓库;通过Kubernetes平台将所述HDFS集群部署到多个宿主机上,并由所述Kubernetes平台基于上传至所述镜像仓库的所述管理节点镜像在第一宿主机创建主管理容器、在第二宿主机创建热备管理容器,并基于上传至所述镜像仓库的数据节点镜像在至少一个第三宿主机创建数据存储容器。本发明实施例可使得HDFS集群可运行于廉价的硬件设备,从而提高HDFS集群的资源利用率,降低企业的数字化转型门槛和资金投入。
技术领域
本发明实施例涉及大数据应用领域,更具体地说,涉及一种HDFS(HadoopDistributed File System,Hadoop分布式文件系统)集群高可用部署方法、系统、设备及存储介质。
背景技术
目前,大数据在工作和生活中发挥着越来越明显的作用,例如大数据辅助购物平台推荐适合客户的产品,大数据辅助避免堵车,大数据辅助做健康检查,大数据娱乐等。由于数据量巨大,对计算的速度和精度要求都比较高,单纯的通过不断增加处理器的数量来增强单个计算机的计算能力已经达不到预想的效果。目前,大数据处理的方向逐渐朝着分布式的计算集群来发展,将分布在不同空间的计算机通过网络相互连接组成一个有机的集群,然后将需要处理的大量数据分散到这个集群中,交由分散系统内的计算机组同时计算,最后将这些计算结果合并得到最终的结果。
现有的基于虚拟机或物理机的传统大数据集群高可用部署方法如下:首先准备一个完全分布式的Hadoop环境和一个完全分布式的ZooKeeper环境,关闭整个集群的所有服务。然后将Hadoop的配置目录中core-site.xml、hdfs-site.xml和yarn-site.xml三个文件,修改为HA(High Available,高可用)模式。最后启动ZooKeeper和Hadoop集群,并启动ZKFC(ZooKeeper Failover Controller,ZooKeeper故障转移控制器)来监控管理节点(namenode)的状态。
HA模式下Active namenode(主管理节点)对外提供服务,standby namenode(热备管理节点)时刻待机准备,当主节点有任何修改时,会通知大部分的JournalNodes(专门管理edit log文件的节点)进程。热备节点可读取JournalNodes中的变更信息,并且一直监控edit log文件的变化,把变化应用于自己的管理节点。热备管理节点可以确保在集群出错时,命名空间状态已经与主管理节点完全同步。
为了保证高可用集群在同一时刻只有一个主管理节点,需要使用到ZooKeeper。首先将Hadoop集群中的主管理节点和热备管理节点都在ZooKeeper系统中注册,当主管理节点出现故障时,ZooKeeper系统能检测到这种情况,并自动把热备管理节点切换为主节点。
然而,上述基于物理机或虚拟机的传统大数据高可用部署方法有如下缺点:
(1)机器资源浪费:使用虚拟机甚至是昂贵的服务器来搭建集群,造成机器资源的浪费;
(2)无法提供集群内的负载均衡:物理机和虚拟机的资源是固定的,这将使得有些节点的计算任务繁重,负载量过高,而有些节点却比较空闲;
(3)应用组件创建与部署效率低、耗时长:传统Hadoop部署的时候需要分发安装文件至每台机器中以及集群服务配置等,会占用集群大量的网络带宽和机器资源,且需要耗费较长时间;
(4)集群扩容效率低、耗时长:如果大数据集群需要扩容,只能新增机器,由于虚拟机和物理机启动时需要加载操作系统内核,并且还需要花费时间去安装配置大数据的组件,从而导致效率较低、耗时较长;
(5)无法健康检查和自动修复:虚拟机和物理机无法做到故障自愈。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市汇川技术股份有限公司,未经深圳市汇川技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910543171.1/2.html,转载请声明来源钻瓜专利网。