[发明专利]Hive表的异常检测方法、装置、电子设备及存储介质在审
申请号: | 202210296294.1 | 申请日: | 2022-03-24 |
公开(公告)号: | CN114676134A | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 黎波;蔡抒扬;夏曙东;陈利玲;孙智彬;张志平 | 申请(专利权)人: | 北京中交兴路信息科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/21;G06F16/28 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 孔垂超 |
地址: | 100176 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | hive 异常 检测 方法 装置 电子设备 存储 介质 | ||
1.一种Hive表的异常检测方法,其特征在于,包括:
加载并解析数据建模配置文档,得到对应的正常数据建模指标以及正常分区信息;
获取待检测的Hive表的实际数据建模指标以及所述待检测的Hive表的实际分区信息;
分别比对所述实际数据建模指标与所述正常数据建模指标是否一致以及所述实际分区信息与所述正常分区信息是否一致,若不一致,则生成对应的异常信息;
检测所述Hive表的分区数据是否异常,若异常,则生成对应的异常信息;
输出所有所述异常信息。
2.根据权利要求1所述的方法,其特征在于,所述正常分区信息包括Hive表的正常的全部分区以及各分区的生命周期;解析数据建模配置文档,得到正常分区信息,包括:
使用数据更新频率、数据生命周期和数据起始时间的数据建模规则,解析所述数据建模配置文档得到Hive表的正常的全部分区以及各分区的生命周期。
3.根据权利要求1所述的方法,其特征在于,所述Hive表的实际分区信息与所述正常分区信息不一致,包括:
所述Hive表的分区未创建、所述Hive表的hdfs上的分区目录未创建、所述Hive表的hdfs上的分区数据不存在以及所述Hive表的分区数据已过期却未备份迁移。
4.根据权利要求1所述的方法,其特征在于,所述检测所述Hive表的分区数据是否异常,包括:
使用所述Hive表的hdfs的API获取全部分区的数据大小,根据所述数据大小分析是否存在数据异常的分区。
5.根据权利要求1所述的方法,其特征在于,所述检测所述Hive表的分区数据是否异常,包括:
针对所述Hive表的生命周期内的全部分区,根据分区时间对所述全部分区进行排序;
根据排序得到的序列,取检测时间点之前的第一数目个分区;
从所述第一数目个分区中获取数据量最小值和数据量最大值,计算数据量最小值和数据量最大值的比值,得到数据差异比例;
从所述第一数目个分区中查找出离所述检测时间点最近的有效分区数据量;
将所述Hive表的不属于正常闭区间内的分区数据确定为异常数据,所述正常闭区间的左端点为所述有效分区数据量与所述数据差异比例之积,右端点为所述有效分区数据量与所述数据差异比例之商。
6.根据权利要求1所述的方法,其特征在于,所述检测所述Hive表的分区数据是否异常,包括:
通过孤立森林算法查找出每一所述分区中与同一分区中的数据差异超过预设阈值的数据作为异常值;
计算所述异常值的占比以及所述异常值与所述正常值的差异程度;
若所述占比以及所述差异程度均超过各自的预设阈值,则确定所述Hive表的分区数据为异常。
7.根据权利要求1所述的方法,其特征在于,所述输出所有所述异常信息包括:将所有所述异常信息整合为json文件输出。
8.一种Hive表的异常检测装置,其特征在于,包括:
加载解析模块,用于加载并解析数据建模配置文档,得到对应的正常数据建模指标以及正常分区信息;
获取模块,用于获取待检测的Hive表的实际数据建模指标以及所述待检测的Hive表的实际分区信息;
比对模块,用于分别比对所述实际数据建模指标与所述正常数据建模指标是否一致以及所述实际分区信息与所述正常分区信息是否一致,若不一致,则生成对应的异常信息;
检测模块,用于检测所述Hive表的分区数据是否异常,若异常,则生成对应的异常信息;
输出模块,用于输出所有所述异常信息。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-8中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以实现如权利要求1-8中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中交兴路信息科技有限公司,未经北京中交兴路信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210296294.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于区块链的智能合约逻辑漏洞检测方法及装置
- 下一篇:燃气阀体和燃烧装置