[发明专利]一种基于JBPM调度系统的气象政务数据抽取方法在审

专利信息
申请号: 201910785539.5 申请日: 2019-08-23
公开(公告)号: CN110471978A 公开(公告)日: 2019-11-19
发明(设计)人: 王甫棣;赵芳;赵希鹏;王帅;古亚文;汪芳;陈纯子 申请(专利权)人: 国家气象信息中心
主分类号: G06F16/25 分类号: G06F16/25;G06F16/215
代理公司: 51218 成都金英专利代理事务所(普通合伙) 代理人: 袁英<国际申请>=<国际公布>=<进入国
地址: 100081 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 调度系统 数据清洗 工作流程 转换规则 数据库 增量数据抽取 干净数据 关键问题 气象数据 数据抽取 数据分析 数据整合 数据源 气象 异构 清洗 载入 验证 转换 环节
【说明书】:

发明公开了一种基于JBPM调度系统的气象政务数据抽取方法,包括如下步骤:S1:将数据源导入JBPM调度系统,进行数据分析;S2:定义JBPM调度系统中的数据清洗转换规则与工作流程;S3:对JBPM调度系统的数据清洗转换规则与工作流程进行验证与评价;S4:利用JBPM调度系统清洗数据中存在的错误;S5:将JBPM调度系统中的干净数据回流到数据库,本发明通过JBPM调度系统实现了气象政务数据整合和同步,解决了异构气象数据集成、增量数据抽取、数据清洗和转换、数据载入数据库各环节涉及的关键问题。

技术领域

本发明涉及大数据领域,尤其涉及一种基于JBPM调度系统的气象政务数据抽取方法 。

背景技术

数据的抽取、转换、装入是创建数据仓库系统的重要环节,它能够很好地解决政务内部数据一致性与信息集成化问题,它从所有异构系统中采集气象政务数据,并对其进行高效的转换。然而,频繁的抽取难免会产生大量的“脏数据”,如拼写错误、重复信息、缺损数据等。有统计资料表明,数据错误大约占到总数据量的5%左右,因此数据质量问题是制约气象政务数据应用的“瓶颈”之一。如果数据质量达不到要求,将直接导致数据仓库技术不能产生理想的结果,甚至会产生错误的分析结果,从而误导决策。因此数据在进入数据库前必须进行清洗。

目前,通常使用DataWrangler和Google Refine进行数据清洗,但是DataWrangler是基于网络服务的,必须把数据源上传到外部网络才能进行数据清洗,对于敏感的内部数据,往往不能保证其安全性;而Google Refine需要将数据源导出到常见的电子表格中才能进行数据清洗,当数据集很大时,则处理时间需要很长。

发明内容

发明的目的在于,针对上述问题,提出一种基于JBPM调度系统的气象政务数据抽取方法 。

一种基于JBPM调度系统的气象政务数据抽取方法 ,包括如下步骤:

S1:将数据源导入JBPM调度系统,进行数据分析;

S2:定义JBPM调度系统中的数据清洗转换规则与工作流程;

S3:对JBPM调度系统的数据清洗转换规则与工作流程进行验证与评价;

S4:利用JBPM调度系统清洗数据中存在的错误;

S5:将JBPM调度系统中的干净数据回流到数据库。

进一步地,所述将数据源导入JBPM调度系统,进行数据分析,包括:通过JBPM调度系统中的数据分析来检测数据中的脏数据或不一致数据,通过JBPM调度系统中的分析程序获得确定的数据属性和不寻常模式的元数据。

进一步地,数据清洗转换规则与工作流程根据JBPM调度系统中的数据分析结果来定义。

进一步地,所述S3包括如下步骤,包括:

S31:根据数据源上的数据样本在JBPM调度系统中进行清洗;

S32:若不满足JBPM调度系统的清洗转换规则与工作流程,则重新定义数据清洗转换规则与工作流程,返回到步骤S1;

S33:若满足JBPM调度系统的清洗转换规则与工作流程,则清理数据源中存在的脏数据和不一致数据。

进一步地,所述步骤S4包括多次数据清洗步骤,其中,BPM调度系统中的数据清洗次数通过数据源中脏数据和不一致数据个数决定。

进一步地,所述步骤S5用于替换数据源中的脏数据和不一致数据,避免再次抽取数据后进行重复的数据清洗。

一种基于JBPM调度系统的气象政务数据抽取系统,包括:

数据输入模块:用于导入数据源;

数据抽取模块:用于抽取脏数据或不一致数据;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家气象信息中心,未经国家气象信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910785539.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top