[发明专利]一种对Hive数据仓库进行可视化监控的方法和装置有效

申请号：	201910672433.4	申请日：	2019-07-24
公开（公告）号：	CN110532261B	公开（公告）日：	2022-09-20
发明（设计）人：	和思扬	申请（专利权）人：	苏州浪潮智能科技有限公司
主分类号：	G06F16/22	分类号：	G06F16/22;G06F16/27;G06F16/28
代理公司：	北京安信方达知识产权代理有限公司 11262	代理人：	胡艳华;解婷婷
地址：	215100 江苏省苏州市吴***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 hive 数据仓库进行可视化监控方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种对Hive数据仓库进行可视化监控的方法和装置，所述方法包括：通过缓存器存储Hive数据仓库各个表及分区的特定信息以及任务例行信息；例行任务提交时，通过结构化查询语言sql解析器对所存储的信息进行解析；解析各表信息后获取每张表中信息之间的关系，并将所述每张表的信息及关系进行合并，得到每张表的各个维度的合并信息；读取每张表的各个维度的所述合并信息，用于web页面展示。本发明实施例能够对错综复杂的数据库表依赖关系进行梳理，对集群任务进行优化调整，使管理者可以观察数据仓库的各个维度，提高了监控便捷性，降低了管理成本。

技术领域

本发明涉及Hive数据仓库技术，尤指一种对Hive数据仓库进行可视化监控的方法和装置。

背景技术

Hadoop为一个由Apache基金会所开发的分布式系统基础架构，Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的结构化查询语言(Structured Query Language，SQL)查询功能，可以将sql语句转换为运行于资源管理器yarn之上的计算框架MapReduce任务进行运行。其中，SQL是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统；同时也是数据库脚本文件的扩展名。

现有技术对企业级Hive数据仓库进行监控中，不能对错综复杂的数据库表依赖关系进行梳理，对集群任务不能进行优化调整；从而使管理者不易观察数据仓库的各个维度，增加了管理维护的繁琐性，业务数据表梳理与掌控的成本很高。

发明内容

为了解决上述技术问题，本发明实施例提供了一种对Hive数据仓库进行可视化监控的方法和装置，可以对错综复杂的数据库表依赖关系进行梳理，对集群任务进行优化调整，使管理者可以观察数据仓库的各个维度，提高了监控便捷性，降低了管理成本。

为了达到本发明目的，一方面，本发明实施例提供了一种对Hive数据仓库进行可视化监控的方法，包括：

通过缓存器存储Hive数据仓库各个表及分区的特定信息以及任务例行信息；

例行任务提交时，通过结构化查询语言sql解析器对所存储的信息进行解析；

解析各表信息后获取每张表中信息之间的关系，并将所述每张表的信息及关系进行合并，得到每张表的各个维度的合并信息；

读取每张表的各个维度的所述合并信息，用于web页面展示。

进一步地，所述方法包括：

在Hive数据仓库中，定时刷新存储数据仓库各表各分区的信息作为第一类信息，通过缓存器进行存储；

在每次Hive脚本提交后，通过Sql解析器对所述第一类信息中的sql语句进行解析，分析出每段sql的数据源表与对应的目的表，将所述数据源表与所述目的表依赖信息作为第二类信息存入所述缓存器；

将所述sql语句转换为运行于资源管理器yarn之上的计算框架MapReduce任务进行运行，计算并捕获任务的特定信息作为第三类信息，存入所述缓存器。