[发明专利]一种基于聚合模型的海量数据质量报告生成方法在审

申请号：	201811586804.9	申请日：	2018-12-25
公开（公告）号：	CN109669936A	公开（公告）日：	2019-04-23
发明（设计）人：	肖俊鑫	申请（专利权）人：	福建南威软件有限公司
主分类号：	G06F16/215	分类号：	G06F16/215;G06F16/27;G06F9/54
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊
地址：	350003 福建省福州市鼓楼***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于聚合模型的海量数据质量报告生成方法，通过定义的行聚合模型、列聚合模型等将物理的实际数据先转化为行列聚合模型，所谓的聚合模型就是原来整体的数据，根据聚合特性可以拆分和合并，这样就能支持离线计算，支持多个校验处理单元并行校验；另外生成大规模数据质量报告的结果数据也不是一个整体，而是来自多个数据质量校验的处理单元输出的数据质量报告结果，通过消息队列统一消化和聚合，最终生成针对大规模结构化数据进行的可自定义校验规则的数据质量校验分析报告。本发明既能支持通用校验规则的定制，又能支持海量大规模数据进行离线数据校验。
搜索关键词：	聚合模型大规模数据报告生成海量数据校验规则质量校验校验大规模结构报告结果处理单元结果数据聚合特性离线计算离线数据实际数据消息队列校验处理自定义聚合并行消化合并输出通用行列转化分析统一
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于聚合模型的海量数据质量报告生成方法，其特征在于：包括以下步骤：步骤S1：创建数据质量校验规则，并读取元数据，对结构化的表字段进行校验规则的配置；步骤S2：根据配置好的校验规则，利用jdbc读取实际数据，然后将实际数据转化为行聚合模型与列聚合模型；步骤S3：输入数据质量校验规则，调用大数据离线计算框架，将数据质量校验划分成并行的多个数据质量校验处理单元；步骤S4：每个数据质量校验处理单元将数据质量的校验结果以及问题数据清单统一发送到消息队列；其中所述校验结果以行聚合模型、列聚合模型的格式发送至消息队列；步骤S5：消息队列对接收到的行、列数据质量校验结果进行重新聚合，生成数据质量报告。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福建南威软件有限公司，未经福建南威软件有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811586804.9/，转载请声明来源钻瓜专利网。

上一篇：检查数据筛选方法、装置、设备及存储介质
下一篇：列表数据比对方法、装置、设备及计算机可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于聚合模型的海量数据质量报告生成方法在审

专利文献下载