[发明专利]Hive表的异常检测方法、装置、电子设备及存储介质在审
申请号: | 202210296294.1 | 申请日: | 2022-03-24 |
公开(公告)号: | CN114676134A | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 黎波;蔡抒扬;夏曙东;陈利玲;孙智彬;张志平 | 申请(专利权)人: | 北京中交兴路信息科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/21;G06F16/28 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 孔垂超 |
地址: | 100176 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | hive 异常 检测 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种Hive表的异常检测方法、装置、电子设备及存储介质。该方法包括:加载并解析数据建模配置文档,得到对应的正常数据建模指标以及正常分区信息;获取待检测的Hive表的实际数据建模指标以及所述待检测的Hive表的实际分区信息;分别比对所述实际数据建模指标与所述正常数据建模指标是否一致以及所述实际分区信息与所述正常分区信息是否一致,若不一致,则生成对应的异常信息;检测所述Hive表的分区数据是否异常,若异常,则生成对应的异常信息;输出所有所述异常信息。本申请提供的Hive表的异常检测方法实现了对Hive表的异常自动检测,节约了人力成本,提高了检查效率,检查结果准确度高。
技术领域
本申请涉及数据处理技术领域,具体涉及一种Hive表的异常检测方法、装置、电子设备及存储介质。
背景技术
Hive是基于Hadoop的一个数据仓库工具。数据仓库简称数仓,数仓中大部分的表都为分区表,以日期、周、月份作为分区字段,以固定周期增量归集,现有技术中对数据的检查是以人工方式基于经验进行观察实现的。随着数据规模的不断扩大,Hive数仓中的数据表急剧增加,对数据的检查需要增加大量的人力成本,而且检查效率低,检查结果准确度低。
发明内容
本申请的目的是提供一种Hive表的异常检测方法、装置、电子设备及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本申请实施例的一个方面,提供一种Hive表的异常检测方法,包括:
加载并解析数据建模配置文档,得到对应的正常数据建模指标以及正常分区信息;
获取待检测的Hive表的实际数据建模指标以及所述待检测的Hive表的实际分区信息;
分别比对所述实际数据建模指标与所述正常数据建模指标是否一致以及所述实际分区信息与所述正常分区信息是否一致,若不一致,则生成对应的异常信息;
检测所述Hive表的分区数据是否异常,若异常,则生成对应的异常信息;
输出所有所述异常信息。
在本申请的一些实施例中,所述正常分区信息包括Hive表的正常的全部分区以及各分区的生命周期;解析数据建模配置文档,得到正常分区信息,包括:
使用数据更新频率、数据生命周期和数据起始时间的数据建模规则,解析所述数据建模配置文档得到Hive表的正常的全部分区以及各分区的生命周期。
在本申请的一些实施例中,所述Hive表的实际分区信息与所述正常分区信息不一致,包括:
所述Hive表的分区未创建、所述Hive表的hdfs上的分区目录未创建、所述Hive表的hdfs上的分区数据不存在以及所述Hive表的分区数据已过期却未备份迁移。
在本申请的一些实施例中,所述检测所述Hive表的分区数据是否异常,包括:
使用所述Hive表的hdfs的API获取全部分区的数据大小,根据所述数据大小分析是否存在数据异常的分区。
在本申请的一些实施例中,所述检测所述Hive表的分区数据是否异常,包括:
针对所述Hive表的生命周期内的全部分区,根据分区时间对所述全部分区进行排序;
根据排序得到的序列,取检测时间点之前的第一数目个分区;
从所述第一数目个分区中获取数据量最小值和数据量最大值,计算数据量最小值和数据量最大值的比值,得到数据差异比例;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中交兴路信息科技有限公司,未经北京中交兴路信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210296294.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于区块链的智能合约逻辑漏洞检测方法及装置
- 下一篇:燃气阀体和燃烧装置