[发明专利]大数据交换系统在审
申请号: | 202010492504.5 | 申请日: | 2020-06-03 |
公开(公告)号: | CN111581202A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 周道华;李武鸿;杨陈;周涛;曾俊;洪江;罗玉;刘杰;黄维;刘瑞东;彭容;张明娟;许江泽;吴婷婷;詹飞;程武彬;杨眉 | 申请(专利权)人: | 成都中科大旗软件股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25 |
代理公司: | 成都立新致创知识产权代理事务所(特殊普通合伙) 51277 | 代理人: | 周方建 |
地址: | 610000 四川省成都市高新区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 交换 系统 | ||
本发明涉及大数据交换系统,该系统包括ODS数据原始层、DWD数据清洗明细层、DWS数据汇总层、DM数据集市层以及ST数据应用层,和传统的数据交换平台相比,本发明提供了多种数据清洗规则,对原始数据进行清洗,同时保留原始数据进行备份,从而得到可适用于任一方使用的有效数据,消除了传统模式下数据交换后无法直接使用的问题。
技术领域
本发明涉及数据交换,具体涉及一种大数据交换系统。
背景技术
数据交换平台是提供客户接入端软件部署在每个应用系统的前置机上,实现数据交换平台和各信息系统的有机结合,在客户接入端实现数据的自动提取与转换,同时支持手工录入与审核数据。它是一个为不同数据库、不同数据格式之间,进行数据交换而提供服务的平台。它要解决企业、政府机构在不同信息库间信息数据无法自由转换的问题。
现有平台的主要缺陷在于:由于各机构上传的数据格式不统一,使得交换后的数据实用性较低,第三方无法对该交换数据进行直接使用,只能使用一些与自己数据类型相同的数据,从而极大的限制了数据交换的有效性。
发明内容
本发明的目的在于克服现有技术的不足,提供一种大数据交换系统,对交换的数据进行格式清洗,使其适用于任意一方使用,从而提高了交换数据的有效性。
本发明的目的是通过以下技术方案来实现的:
一种大数据交换系统,该系统包括ODS数据原始层、DWD数据清洗明细层、DWS数据汇总层、DM数据集市层以及ST数据应用层;
所述ODS数据原始层是数据仓库原始准备区,为DWD数据清洗明细层提供基础原始数据;
所述DWD数据清洗明细层为DWS数据汇总层提供来源明细数据,进行清洗转换;
所述DWS数据汇总层为DM数据集市层提供细粒度数据,根据DWD数据清洗明细层数据按各个维度进行粗粒度汇总聚合;
所述DM数据集市层是根据DWS数据汇总层数据按照各种维度或多种维度组合把需要查询的一些事实字段进行汇总统计并作为单独的列进行存储;
所述ST数据应用层面向用户应用和分析需求面向最终结果用户。
进一步的,所述ODS数据原始层从业务系统增量抽取原始数据,原始数据的保留时间由业务需求决定、原始数据可分表进行周期存储、原始数据不做清洗转换与业务系统数据模型保持一致、按主题逻辑划分。
进一步的,所述清洗转换的规则包括:
非空检核:要求字段为非空的情况下,需要对该字段数据进行检核;
主键重复:多个业务系统中同类数据经过清洗后,在同一保存时,为保证主键唯一性,需要进行检核工作;
非法代码清洗、非法值清洗:非法代码问题包括非法代码、代码与数据标准不一致等,非法值包括取值错误、格式错误、多余字符、乱码,需根据具体情况进行校核及修正;
数据格式检核:通过检查表中属性值的格式是否正确来衡量其准确性,如时间格式、币种格式、多与字符、乱码。
记录数检核:指各个系统相关数据之间的数据总数检核。
进一步的,所述清洗转换还包括一个缺失值清洗,其步骤如下:
1)、确定缺失值范围:按照缺失比例和字段重要性,分别制定策略:
重要性高,缺失率低:通过计算进行填充;通过经验或知识估计;
重要性高,缺失率高:尝试从其他渠道取数补全;使用其他字段通过计算获取;
重要性低,缺失率低:不做处理或简单填充;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都中科大旗软件股份有限公司,未经成都中科大旗软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010492504.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置