[发明专利]数据仓库数据导入方法与系统在审

专利信息
申请号: 202110276425.5 申请日: 2021-03-15
公开(公告)号: CN112667733A 公开(公告)日: 2021-04-16
发明(设计)人: 闫琛昕 申请(专利权)人: 北京焦点新干线信息技术有限公司
主分类号: G06F16/25 分类号: G06F16/25;G06F16/28
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 李慧引
地址: 100190 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据仓库 数据 导入 方法 系统
【说明书】:

发明提供了一种数据仓库数据导入方法与系统,该导入方法包括:数据导入系统唤起导入任务;被唤起的导入任务为目标导入任务;数据导入系统使用目标导入任务中配置的数据源连接信息获取源表;数据导入系统从源表中提取源表元数据和目标字段;目标字段根据第二映射关系决定;数据导入系统根据源表元数据和第一映射关系,调用相应的数据处理函数对提取出的目标字段进行数据处理;数据导入系统根据目标表元数据和第二映射关系,将经数据处理后的数据映射至数据仓库中目标表的相应字段中。从而解决了现有方式中每添加一个导入流都需要开发一个导入处理流程的问题,以及解决了中间数据和无用数据多的问题。

技术领域

本发明涉及大数据处理技术领域,特别涉及数据仓库数据导入方法与系统。

背景技术

在对业务数据进行分析时,经常需要分析数月乃至数年的数据,涉及数万至数亿行,这样的查询计算量在业务数据库上时无法实现的。所以需要将数据导入到注重分析计算能力的数据仓库/分析型数据库中,在其上进行数据分析工作。

业务数据库中保存的信息不一定是完整的,需要进行跨库补齐或逻辑处理。

举例来讲,假设需要导入一个实体的销售信息,涉及两个表:表sell(销售数据表)和表item(详细信息表)。表sell的字段包括商品id,时间(time), 项目id(item_id),表item的字段包括项目id和项目名(item_name)。可见,在表sell表中对于商品存有商品id,相应的商品的名称、介绍等详细信息则在表item中。当这两张表处于不同的数据库时,即会出现跨库补齐的需求。

传统导入会包含下列流程:

将sell和item表各自全量导入到数据仓库,作为备份表sell’和item’;

用ETL(Extract-Transform-Load)处理系统读取数据仓库中的sell’和item’,对其进行join操作,生成一个具有全部所需要信息的宽表(目标表):表sell_mixed,其字段包括:商品id, time, item_id, item_name等;

最后将sell_mixed存入数据仓库。

并且,当处理过程中涉及较复杂的逻辑运算或正则匹配等需要时,则需要流处理系统参与。

例如,某表中包含客户端请求来源url,需要依靠url判断来源是否合法,及获取来源名称,此类需求仅靠SQL语句无法完成,需要开发流处理程序进行处理。流处理系统将原始业务数据(上述备份表sell’和item’)从数据仓库中读出后,将数据分割为多个片段,在多台机器上分别执行处理程序,最后汇总再存回数据仓库。

也即,数据仓库的传统解决方案是建立一套流处理流程或ETL流程,但这种方案存在如下问题:

每添加一个导入流(从原始业务数据加工得到目标表展示用统计数据的流程)都需要开发一个导入处理流程;

中间数据和无用数据多:导入多使用全量导入,并且中间数据(例如上述备份表sell’和item’)占用系统空间。

发明内容

有鉴于此,本发明实施例提供数据仓库数据导入方法与系统,以解决每添加一个导入流都需要开发一个导入处理流程,且中间数据和无用数据多的问题。

为实现上述目的,本发明实施例提供如下技术方案:

本申请第一方面提供了一种数据仓库数据导入方法,基于数据导入系统,所述数据导入系统维护有导入任务;每一导入任务通过配置页面预先配置;每一导入任务至少包括:数据源连接信息、源表元数据、目标表元数据、源表元数据中的字段名与数据处理函数之间的第一映射关系、源表元数据中字段名与目标表元数据中字段名间的第二映射关系;包括:

所述数据导入系统唤起导入任务;被唤起的导入任务为目标导入任务;

所述数据导入系统使用所述目标导入任务中配置的数据源连接信息获取源表;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京焦点新干线信息技术有限公司,未经北京焦点新干线信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110276425.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code