[发明专利]数据稽核方法及系统在审
申请号: | 201811102625.3 | 申请日: | 2018-09-20 |
公开(公告)号: | CN109408489A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 崔涛;丛新法;王晓明;张朋;张辉;叶浩;李团结;张婷;刘双;张忠龙;邱斌;刘亚瑞;赵家明 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/27;G06F16/25;G06F16/182 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 王征;张娜 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 稽核 数据加载 集群 数据库 数据源获取数据 指令 调整规则 稽核过程 稽核系统 数据处理 数据迁移 系统成本 资源不足 自身性能 差异性 规则化 可控 存储 变更 驱动 灵活 | ||
本发明提供一种数据稽核方法及系统,通过获取稽核发起指令,其中稽核发起指令包括数据加载规则及数据稽核规则;然后根据所述数据加载规则从至少一个数据源获取数据,并将所述数据进行存储;再将所述数据输入Spark集群,由所述Spark集群根据所述数据稽核规则稽核所述数据,从而获取稽核结果。本发明的方法适用于跨数据库的数据的稽核,系统成本较低,稽核过程中不依赖数据库自身性能,降低了数据迁移的成本,解决了原有稽核系统不同稽核操作的较大差异性问题,做到了过程和结果的可控,同时采用规则化驱动和Spark处理技术,解决了以往资源不足和数据处理成本过高的问题,用户可以随时调整规则,变更逻辑,更加灵活和便捷。
技术领域
本发明涉及数据处理领域,尤其涉及一种数据稽核方法及系统。
背景技术
目前稽核的源数据往往在运营商生产系统中分别存放在关系数据库(Oracle)、分布式数据库(HBASE\HIVE\GreenPlum)、内存库(Qcubic)、Kafka、ES及文件等,数据源较多且数据格式不统一。现有的稽核系统主要以稽核核心Oracle数据库关系数据库为主,通过开发存储过程和稽核SQL语句完成数据的稽核处理。
目前基于数据库的稽核系统,过于依赖数据库的能力,面对跨数据库的、大量的表数据的稽核,由于表分区及参数都是限定的优化空间有限,往往在千万级数据处理时就会遇到瓶颈,系统消耗很大甚至根本无法执行,同时在对源数据迁移中,往往需要人工介入或外挂脚本导入,在数据及时性上无法做到保证,且数据成本和技术成本都很高。
发明内容
本发明提供一种数据稽核方法及系统,以适用于跨数据库的数据的稽核,降低数据稽核系统成本,稽核过程中不依赖数据库自身性能。
本发明的一个方面是提供一种数据稽核方法,包括:
获取稽核发起指令,所述稽核发起指令包括数据加载规则及数据稽核规则;
根据所述数据加载规则从至少一个数据源获取数据,并将所述数据进行存储;
将所述数据输入Spark集群,由所述Spark集群根据所述数据稽核规则稽核所述数据,从而获取稽核结果。
进一步的,所述获取稽核结果后,还包括:
按照预设的数据输出规则,输出所述稽核结果,其中所述预设的数据输出规则包括以下至少一种:
将所述稽核结果输出为文件或数据库表;或者
根据所述稽核结果直接执行预定服务。
进一步的,所述稽核结果包括:异常数据的稽核因子和所述异常数据的明细信息,其中,所述稽核因子为由所述异常数据的明细信息根据所述数据稽核规则生成的用于判定所述异常数据状态的参数。
进一步的,所述获取稽核结果后,还包括:
根据所述稽核因子以及预定的判定公式判定稽核指标状态,其中所述稽核指标为表征导致数据异常的可能因素的指标;
根据所述稽核指标状态获得所述异常数据状态。
进一步的,所述将所述数据进行存储,具体包括:
由所述Spark集群将所述数据转换为预定数据格式,并进行切分后,存储于分布式文件系统中。
进一步的,所述将所述数据输入Spark集群,具体包括:
采用并行的方式将所述数据加载到与所述Spark集群连接的分布式缓存中,以供所述Spark集群读取。
本发明的另一个方面是提供一种数据稽核系统,包括:
系统前端模块,用于获取稽核发起指令,所述稽核发起指令包括数据加载规则及数据稽核规则;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811102625.3/2.html,转载请声明来源钻瓜专利网。