[发明专利]数据仓库数据导入方法与系统在审
申请号: | 202110276425.5 | 申请日: | 2021-03-15 |
公开(公告)号: | CN112667733A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 闫琛昕 | 申请(专利权)人: | 北京焦点新干线信息技术有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李慧引 |
地址: | 100190 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据仓库 数据 导入 方法 系统 | ||
本发明提供了一种数据仓库数据导入方法与系统,该导入方法包括:数据导入系统唤起导入任务;被唤起的导入任务为目标导入任务;数据导入系统使用目标导入任务中配置的数据源连接信息获取源表;数据导入系统从源表中提取源表元数据和目标字段;目标字段根据第二映射关系决定;数据导入系统根据源表元数据和第一映射关系,调用相应的数据处理函数对提取出的目标字段进行数据处理;数据导入系统根据目标表元数据和第二映射关系,将经数据处理后的数据映射至数据仓库中目标表的相应字段中。从而解决了现有方式中每添加一个导入流都需要开发一个导入处理流程的问题,以及解决了中间数据和无用数据多的问题。
技术领域
本发明涉及大数据处理技术领域,特别涉及数据仓库数据导入方法与系统。
背景技术
在对业务数据进行分析时,经常需要分析数月乃至数年的数据,涉及数万至数亿行,这样的查询计算量在业务数据库上时无法实现的。所以需要将数据导入到注重分析计算能力的数据仓库/分析型数据库中,在其上进行数据分析工作。
业务数据库中保存的信息不一定是完整的,需要进行跨库补齐或逻辑处理。
举例来讲,假设需要导入一个实体的销售信息,涉及两个表:表sell(销售数据表)和表item(详细信息表)。表sell的字段包括商品id,时间(time), 项目id(item_id),表item的字段包括项目id和项目名(item_name)。可见,在表sell表中对于商品存有商品id,相应的商品的名称、介绍等详细信息则在表item中。当这两张表处于不同的数据库时,即会出现跨库补齐的需求。
传统导入会包含下列流程:
将sell和item表各自全量导入到数据仓库,作为备份表sell’和item’;
用ETL(Extract-Transform-Load)处理系统读取数据仓库中的sell’和item’,对其进行join操作,生成一个具有全部所需要信息的宽表(目标表):表sell_mixed,其字段包括:商品id, time, item_id, item_name等;
最后将sell_mixed存入数据仓库。
并且,当处理过程中涉及较复杂的逻辑运算或正则匹配等需要时,则需要流处理系统参与。
例如,某表中包含客户端请求来源url,需要依靠url判断来源是否合法,及获取来源名称,此类需求仅靠SQL语句无法完成,需要开发流处理程序进行处理。流处理系统将原始业务数据(上述备份表sell’和item’)从数据仓库中读出后,将数据分割为多个片段,在多台机器上分别执行处理程序,最后汇总再存回数据仓库。
也即,数据仓库的传统解决方案是建立一套流处理流程或ETL流程,但这种方案存在如下问题:
每添加一个导入流(从原始业务数据加工得到目标表展示用统计数据的流程)都需要开发一个导入处理流程;
中间数据和无用数据多:导入多使用全量导入,并且中间数据(例如上述备份表sell’和item’)占用系统空间。
发明内容
有鉴于此,本发明实施例提供数据仓库数据导入方法与系统,以解决每添加一个导入流都需要开发一个导入处理流程,且中间数据和无用数据多的问题。
为实现上述目的,本发明实施例提供如下技术方案:
本申请第一方面提供了一种数据仓库数据导入方法,基于数据导入系统,所述数据导入系统维护有导入任务;每一导入任务通过配置页面预先配置;每一导入任务至少包括:数据源连接信息、源表元数据、目标表元数据、源表元数据中的字段名与数据处理函数之间的第一映射关系、源表元数据中字段名与目标表元数据中字段名间的第二映射关系;包括:
所述数据导入系统唤起导入任务;被唤起的导入任务为目标导入任务;
所述数据导入系统使用所述目标导入任务中配置的数据源连接信息获取源表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京焦点新干线信息技术有限公司,未经北京焦点新干线信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110276425.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:超频扫频防垢电化学设备
- 下一篇:光学组件及投影设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置