[发明专利]大数据交换系统在审

专利信息
申请号: 202010492504.5 申请日: 2020-06-03
公开(公告)号: CN111581202A 公开(公告)日: 2020-08-25
发明(设计)人: 周道华;李武鸿;杨陈;周涛;曾俊;洪江;罗玉;刘杰;黄维;刘瑞东;彭容;张明娟;许江泽;吴婷婷;詹飞;程武彬;杨眉 申请(专利权)人: 成都中科大旗软件股份有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/25
代理公司: 成都立新致创知识产权代理事务所(特殊普通合伙) 51277 代理人: 周方建
地址: 610000 四川省成都市高新区*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 交换 系统
【权利要求书】:

1.一种大数据交换系统,其特征在于,该系统包括ODS数据原始层、DWD数据清洗明细层、DWS数据汇总层、DM数据集市层以及ST数据应用层;

所述ODS数据原始层是数据仓库原始准备区,为DWD数据清洗明细层提供基础原始数据;

所述DWD数据清洗明细层为DWS数据汇总层提供来源明细数据,进行清洗转换;

所述DWS数据汇总层为DM数据集市层提供细粒度数据,根据DWD数据清洗明细层数据按各个维度进行粗粒度汇总聚合;

所述DM数据集市层是根据DWS数据汇总层数据按照各种维度或多种维度组合把需要查询的一些事实字段进行汇总统计并作为单独的列进行存储;

所述ST数据应用层面向用户应用和分析需求面向最终结果用户。

2.根据权利要求1所述的大数据交换系统,其特征在于,所述ODS数据原始层从业务系统增量抽取原始数据,原始数据的保留时间由业务需求决定、原始数据可分表进行周期存储、原始数据不做清洗转换与业务系统数据模型保持一致、按主题逻辑划分。

3.根据权利要求2所述的大数据交换系统,其特征在于,所述清洗转换的规则包括:

非空检核:要求字段为非空的情况下,需要对该字段数据进行检核;

主键重复:多个业务系统中同类数据经过清洗后,在同一保存时,为保证主键唯一性,需要进行检核工作;

非法代码清洗、非法值清洗:非法代码问题包括非法代码、代码与数据标准不一致等,非法值包括取值错误、格式错误、多余字符、乱码,需根据具体情况进行校核及修正;

数据格式检核:通过检查表中属性值的格式是否正确来衡量其准确性,如时间格式、币种格式、多与字符、乱码;

记录数检核:指各个系统相关数据之间的数据总数检核。

4.根据权利要求3所述的大数据交换系统,其特征在于,所述清洗转换还包括一个缺失值清洗,其步骤如下:

1)、确定缺失值范围:按照缺失比例和字段重要性,分别制定策略:

重要性高,缺失率低:通过计算进行填充;通过经验或知识估计;

重要性高,缺失率高:尝试从其他渠道取数补全;使用其他字段通过计算获取;

重要性低,缺失率低:不做处理或简单填充;

重要性低,缺失率高:去掉该字段;

2)、去掉不需要的字段,将不需要的字段直接删掉即可;

3)、填充缺失内容,某些缺失值可以进行填充,方法包括:以业务知识或经验推测填充缺失值;或以同一指标的计算结果(均值、中位数、众数等)填充缺失值;或以不同指标的计算结果填充缺失值;

4)、格式内容清洗,包括时间、日期、数值、全半角、显示格式不一致的清洗,以及内容中有不该存在的字符。

5.根据权利要求4所述的大数据交换系统,其特征在于,所述用户应用和分析需求包括前端报表、分析图表、KPI、仪表盘、OLAP、专题分析。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都中科大旗软件股份有限公司,未经成都中科大旗软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010492504.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top