[发明专利]一种实现HDFS文件占用率自动监控的方法及系统有效

专利信息
申请号: 201910255763.3 申请日: 2019-04-01
公开(公告)号: CN109992573B 公开(公告)日: 2022-07-19
发明(设计)人: 李娟;史飞悦 申请(专利权)人: 焦点科技股份有限公司
主分类号: G06F16/18 分类号: G06F16/18;G06F16/174;G06F16/22;G06F16/25
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 陈建和
地址: 210032 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 实现 hdfs 文件 占用率 自动 监控 方法 系统
【说明书】:

发明公开了一种实现HDFS文件占用率自动监控的方法,其特征在于,首先配置HDFS路径、namenodes,调用java API接口获取HDFS文件目录和文件大小、原始日志及数据仓库目录下的层级路径列表及文件大小;编写ETL,计算各类文件大小;采用报表软件展示每日HDFS总目录;配置调度,获取HDFS存储情况,更新相关元数据表,标示相应文件。本发明针对HDFS文件占用率监控问题进行了算法和系统的设计,将底层目录地址及文件大小存储到数据库,然后通过存储过程计算每层目录的路径及大小,最后通过报表展现出来,该方法和系统能够高效智能的完成监控任务,大大降低了HDFS的维护时间。

技术领域

本发明涉及数据库技术领域,特别是涉及一种实现HDFS文件占用率自动监控的方法及系统。

背景技术

在企业大数据分析中,随着业务的不断开展,数据分析背后所依赖的日志文件和业务表也逐渐增多,大数据时代已经到来。Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据,Hadoop的两个主要组件很重要:一个是用于存储的Hadoop分布式文件系统(HDFS),另一个是MapReduce框架,让你可以对Hadoop 里面存储的任何数据执行批量分析任务,但是当HDFS存储空间不足,很多任务无法执行,这就需要维护人员准确删除冗余占空间的文件,定期释放存储空间,因此HDFS的文件占用率监控就显得极其重要。

传统的监控HDFS文件占用率往往是在HDFS空间不足时人为去定位哪个目录下的文件占用率较大,时间较长且定位不够准确,导致HDFS的维护时间较长,从而影响多个任务的执行。

因此,需要一种能够高效智能的完成监控任务,降低HDFS维护时间的方法及系统。

发明内容

本发明所要解决的技术问题是克服现有技术的不足,提供一种实现HDFS文件占用率自动监控的方法及系统。

为解决上述技术问题,本发明提供一种实现HDFS文件占用率自动监控的方法,其特征在于,包括如下步骤:

步骤一:JAVA中动态配置HDFS的namenodes,包含Active NameNode和StandbyNameNode:两台NameNode形成互备,一台处于Active状态,为主NameNode,另外一台处于Standby状态,为备NameNode,配置HDFS路径包括原始日志存放路径 /user/root/ODS/、日志处理后的仓库表存放路径/user/hive/warehouse/、配置oralce数据库用户名及密码;

步骤二:通过调用java API接口递归循环获取各路径下的文件名和文件大小,将获取到的文件名和文件大小存入list表中;

步骤三:在数据库中建立相应的中间表,并且每次将list表中的数据插入到中间表之前,将ODS和DW层的中间表清空,所述ODS和DW层的中间表最多只存放近7天数据,而 /user/root/ODS/、/user/hive/warehouse/路径的总文件大小存放历史之今的数据;

步骤四:获取的数据插入到数据库之后,编写ETL,通过正则判断区分不规则路径,计算原始日志每个日期分区下文件大小;计算各数据库用户的文件大小、数据库用户下各表的文件大小、数据库用户下各表下每个分区的文件大小;

步骤五:采用报表软件展示每日HDFS总目录,将文件大小、新增、同比、环比、明细通过图表展现出来;

步骤六:通过kettle配置调度,所述步骤一中产生的JAR包发布后,编写Shell文件调度 JAR包,在执行shell文件之前先在日志表里写一条开始执行的记录,执行结束后将执行结果写入日志表;最后调度在oracle里已经编写的存储过程并写相关日志。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910255763.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top