[发明专利]大数据集群准实时Yarn任务监控分析方法在审
申请号: | 201711361945.6 | 申请日: | 2017-12-15 |
公开(公告)号: | CN110019044A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 杨泽森 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/17 | 分类号: | G06F16/17;G06F16/182;G06F9/50 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 王洵 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大数据 集群 分布式文件系统 分布式查询 数据库表 引擎 集群环境 监控分析 任务监控 数据存储 分析 准实时 监控 指向 访问 创建 部署 | ||
1.一种用于监控和分析大数据集群中的任务的方法,包括:
从集群中获取与任务有关的数据;
将与任务有关的数据存储到分布式文件系统;
创建指向分布式文件系统中与任务有关的数据的数据库表;
部署分布式查询引擎以访问所述数据库表;以及
在web端呈现由所述分布式查询引擎访问的与任务有关的数据,用于监控和分析。
2.根据权利要求1所述的方法,适用于Hadoop和Yarn的环境,其中
获取与任务有关的数据并存储到分布式文件系统包括使用脚本获取Yarn任务列表和包括Yarn任务的提交数量、等待数量、运行数量、完成数量中的至少一个的Yarn指标,以及
存储到分布式文件系统包括将Yarn任务列表和Yarn指标上传到集群HDFS。
3.根据权利要求2所述的方法,其中,所述数据库表包括两个Hive表,分别指向集群HDFS中的Yarn任务列表和Yarn指标。
4.根据权利要求3所述的方法,其中,部署分布式查询引擎包括部署Presto引擎并配置catlog hive.properties信息,使得Presto引擎能够访问所述Hive表。
5.根据权利要求1所述的方法,其中,呈现与任务有关的数据包括使用可视化工具进行呈现,提供任务的历史趋势、同比分析、环比分析、同步预警和环比预警中的至少一个。
6.一种用于监控和分析大数据集群中的任务的装置,包括:
获取单元,被配置为从集群中获取与任务有关的数据;
存储单元,被配置将将与任务有关的数据存储到分布式文件系统;
数据表单元,被配置为创建指向分布式文件系统中与任务有关的数据的数据库表;
查询引擎单元,被配置为部署分布式查询引擎以访问所述数据库表;以及
监控分析单元,被配置为在web端呈现由所述分布式查询引擎访问的与任务有关的数据,用于监控和分析。
7.根据权利要求6所述的装置,适用于Hadoop和Yarn的环境,其中,
获取单元还被配置为使用脚本获取Yarn任务列表和包括Yarn任务的提交数量、等待数量、运行数量、完成数量中的至少一个的Yarn指标;以及
存储单元还被配置为将Yarn任务列表和Yarn指标上传到集群HDFS。
8.根据权利要求7所述的装置,其中,所述数据库表包括两个Hive表,分别指向集群HDFS中的Yarn任务列表和Yarn指标。
9.根据权利要求8所述的装置,其中,查询引擎单元还被配置为部署Presto引擎并配置catlog hive.properties信息,使得Presto引擎能够访问所述Hive表。
10.根据权利要求6所述的装置,其中,监控分析单元还被配置为:使用可视化工具进行呈现,提供任务的历史趋势、同比分析、环比分析、同步预警和环比预警中的至少一个。
11.一种计算设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。
12.一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令当被计算机执行,使得所述计算机执行如权利要求1至5中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711361945.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种区块链数据存储方法
- 下一篇:日志落地方法及装置