[发明专利]一种数据处理的方法和装置在审
申请号: | 201910438389.0 | 申请日: | 2019-05-24 |
公开(公告)号: | CN111984686A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 张明阳;马千里 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/2457 | 分类号: | G06F16/2457;G06F16/25 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;伊明明 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本发明公开了一种数据处理的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:执行接收的数据处理指令,以完成对待处理数据的处理操作;所述待处理数据存储在目标数据仓库中,以及所述目标数据仓库为多个Hadoop集群共享;根据所述数据处理指令的执行结果,更新所述待处理数据的共享元数据表;所述共享元数据表为所述目标数据仓库与所述多个Hadoop集群中的数据集市共享。该方法提高服务器的利用率,大大降低服务器的存储资源的浪费。以及,区别于现有技术中每个数据集市都要维护一套元数据,本发明实施例中的目标数据仓库与多个Hadoop集群中的数据集市共享一个元数据表,进而降低了运维的成本。
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理的方法和装置。
背景技术
随着电子商务、移动互联网的快速发展,用于对数据进行分析与处理的数据仓库(Data Warehouse,DW或DWH)发挥着越来越重要的作用,基于Hive数据仓库的数据中心架构图如图1所示:各个线上系统的数据通过ETL(提取Extra、转化Transfer、加载Load操作)同步到操作性数据仓库ODS中,然后对ODS中的数据进行面向主题域建模形成数据仓库DataWarehouse。
其中,Data Warehouse数据仓库为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,是一个包含所有主题的通用的集合。DataMart数据集市是针对某一个业务领域建立模型,具体用户(决策层)查看数据集市生成的报表,数据集市只关心自己需要的数据,不会全盘考虑企业整体的数据架构和应用,每个应用有自己的数据集市。
现有技术中,对于每个Hadoop集群,都维护有自己的数据仓库,以及集群中的每个数据集市都维护有自己独立的元数据表。若要对数据进行处理的话,首先需要确定待处理数据所在的Hadoop集群,然后基于该集群的数据仓库和元数据表对待处理数据进行数据同步处理操作。例如对数据仓库中数据进行同步处理操作,首先将线上数据通过ETL等步骤将数据同步到一个数据仓库A中。然后,基于该数据仓库A的数据更新,对若干数据集市中的元数据表进行更新。在该过程中,对于与该数据仓库A在同一个集群中的数据集市,将数据集市的元数据表的HDFS路径Location指向数据仓库A中数据表的Location,即数据只在数据仓库A有一份,数据集市通过建立Location映射指向可以使用数据仓库A中数据表的数据。对于与数据仓库A不在同一集群的其他数据集市,首先通过distcp操作将数据仓库A中的HDFS数据拷贝到其他集群中的数据仓库,然后针对每个集群进行数据同步。通过数据拷贝完成跨集群之间的数据同步,在数据拷贝完成之后,对数据仓库和数据集市的表信息进行检查和添加分区操作。
现有技术中基于Hive数据仓库的数据处理主要存在以下问题:涉及跨集群之间的数据处理,会造成服务器资源的极大浪费;每一个数据集市都需要维护自己的hivemetastore元数据表,并且需要运维人员进行维护,导致维护成本的加大;针对不同的集群或者数据集市,数据处理在调度系统中可能需要创建大量的不同名字的同步任务,增大了系统压力。
发明内容
有鉴于此,本发明实施例提供一种数据处理的方法和装置,能够提高服务器的利用率,大大降低服务器的存储资源的浪费。以及,区别于现有技术中每个数据集市都要维护一套元数据,本发明实施例中的目标数据仓库与多个Hadoop集群中的数据集市共享一个元数据表,进而降低了运维的成本。
为实现上述目的,根据本发明实施例的一个方面,提供了一种数据处理的方法。
本发明实施例的数据处理的方法包括:执行接收的数据处理指令,以完成对待处理数据的处理操作;所述待处理数据存储在目标数据仓库中,以及所述目标数据仓库为多个Hadoop集群共享;并且,根据所述数据处理指令的执行结果,更新所述待处理数据的共享元数据表;所述共享元数据表为所述目标数据仓库与所述多个Hadoop集群中的数据集市共享。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910438389.0/2.html,转载请声明来源钻瓜专利网。