[发明专利]一种大数据处理方法及装置有效

申请号：	201710899237.1	申请日：	2017-09-28
公开（公告）号：	CN107729423B	公开（公告）日：	2021-06-08
发明（设计）人：	王勇	申请（专利权）人：	贝壳找房（北京）科技有限公司
主分类号：	G06F16/25	分类号：	G06F16/25
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	王莹;李相雨
地址：	100085 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种大数据处理方法及装置。所述方法包括：提取至少一个所述源数据表中的所有待处理字段对应的数据，以及每一源数据表对应的主键；根据目的数据表的存储格式对每一个待处理字段对应的数据进行格式转换，获得转换后数据；根据所述每一源数据表对应的主键和所述目的数据表对应的主键，将所述转换后数据加载到目的数据表中。所述装置用于执行所述方法。本发明实施例通过提取源数据表中待处理字段的数据，并对待处理字段的数据进行格式转换，然后加载到目的数据表中，不需要等待源数据表中所有数据都构建完毕再进行数据处理，从而节省了数据处理的时间，提高了资源利用率。

技术领域

本发明实施例涉及大数据处理技术领域，尤其涉及一种大数据处理方法及装置。

背景技术

伴随着科学技术的发展，各行各业信息化程度越来越高，各行业的数据都沿着海量数据的方向发展。面对如此庞大的数据量，用户从中获取到有价值的数据是现如今关注的焦点。

在各个数据领域内，常见的数据集的清洗办法都是将存储的某张数据表提取、转换和加载(Extract-Transform-Load，简称ETL)到清洗后的数据表中。

大数据的存储和检索方案很多，在大数据特征之一就是多样性，业务场景为了满足会有不同的引擎或者存储选择，在多样化解决方案的同时，造成了数据之间进行交换变的复杂，引擎之间的数据存取规则都有个性化的支持。ETL的过程中，会有上游数据源写入多个下游数据源，或者多个上游数据源写入单个下游数据源等等。例如Hbase的数据到MySql和ElasticSearch的支持，这种对于Hbase就是一对二的数据扇出。所以类似这种跨引擎(或者跨版本，不同API)的方式，为了保持通用，需要进行需求的抽象。在不同的目标中有约定的规范。

但是在实际的使用过程中，面对一张庞大的数据表，当上游数据的整张数据表的所有列的数据都准备好之后再传入到下游数据库中，这样就导致了构建数据表所耗费的时间过长，使得资源利用率底下的问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种大数据处理方法及装置。

第一方面，本发明实施例提供一种大数据处理方法，包括：

提取至少一个所述源数据表中的所有待处理字段对应的数据，以及每一源数据表对应的主键；

根据目的数据表的存储格式对每一个待处理字段对应的数据进行格式转换，获得转换后数据；

根据所述每一源数据表对应的主键和所述目的数据表对应的主键，将所述转换后数据加载到目的数据表中。

第二方面，本发明实施例提供一种大数据处理装置，包括：

提取模块，用于提取至少一个所述源数据表中的所有待处理字段对应的数据，以及每一源数据表对应的主键；

转换模块，用于根据目的数据表的存储格式对每一个待处理字段对应的数据进行格式转换，获得转换后数据；

加载模块，用于根据所述每一源数据表对应的主键和所述目的数据表对应的主键，将所述转换后数据加载到目的数据表中。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器和总线，其中，