[发明专利]一种Hadoop平台下的数据处理方法和系统在审
申请号: | 201510892226.1 | 申请日: | 2015-12-07 |
公开(公告)号: | CN105447172A | 公开(公告)日: | 2016-03-30 |
发明(设计)人: | 朱大勇;完献忠;滕一勤 | 申请(专利权)人: | 北京先进数通信息技术股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100089 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hadoop 平台 数据处理 方法 系统 | ||
技术领域
本申请涉及数据处理领域,特别是涉及一种Hadoop平台下的数据处理方法和系统。
背景技术
随着计算机技术的发展,需要存储和处理的数据越来越多,并且,不同时期、不同终端或业务产生的数据的结构也可能不同。
例如,在利用Hadoop集群进行数据管理时,业务系统的历史数据需要在归档系统中归档保存,现有技术中,来自业务系统的海量数据需要采用Hive表进行存储,便于数据的管理、查询。然而,由于业务需求的变化等原因,业务系统的某些表难免会发生表结构变化,进而使得各个期间归档源数据的数据格式不匹配。
在利用Hive表进行数据存储、管理等数据归档操作的同时,必须要考虑数据结构变化导致归档数据文件与Hive表结构模式之间的匹配问题,既要确保归档数据的高效方便使用,又要确保历史存储的归档数据能以历史任一时点的数据结构进行分析。
现有技术中通常的做法是,归档数据按照自身格式进行存储,当需要对归档的数据进行分析时,获取所有归档数据的数据结构,根据获取的所有的数据结构,确定一通用数据结构,并根据通用数据结构,修改历史归档数据,之后,再以确定的通用数据结构对所有数据进行分析。
现有技术中的做法存在的缺陷是:在需要进行归档数据查询、分析时,要对已经归档的数据进行格式统计和转换,计算量非常大,结果反馈不及时。
发明内容
本申请所要解决的技术问题是提供一种Hadoop平台下的数据处理的方法和系统,解决数据归档数据查询和分析时计算量大、结果反馈不及时。
为了解决上述问题,本申请提供了一种Hadoop平台下的数据处理方法,包括:
获取Hadoop平台存量数据的Hive表结构信息,将待存储数据的结构信息与所述Hive表结构信息进行比较,获得数据结构变化信息;
根据获得的所述数据结构变化信息和获取的所述存量数据的Hive表结构信息,更新Hive表结构;
按照更新后的Hive表结构格式化所述待存储数据,并存储格式化后的所述待存储数据。
所述数据结构变化信息包括:无变化,或者:新增列、删除列、列位置调整任意一个或多个标识的组合。
在本申请的一个实施例中,所述根据获得的所述数据结构变化信息和获取的所述存量数据的Hive表结构信息,更新Hive表结构,包括:
当所述数据结构变化信息为无变化时,更新后的Hive表结构与获取的所述存量数据的Hive表结构相同;
当所述数据结构变化信息包括删除列时,更新后的Hive表结构与获取的所述存量数据的Hive表结构相同;
当所述数据结构变化信息包括新增列时,在获取的所述存量数据的Hive表结构之后增加相应数据列,更新Hive表结构;
当所述数据结构变化信息包括列位置调整时,更新后的Hive表结构与获取的所述存量数据的Hive表结构相同。
进一步的,所述按照更新后的Hive表结构格式化所述待存储数据,包括:
当所述数据结构变化信息包括删除列时,在待存储数据中增加相应数据列,并设置该列数据为空值;
当所述数据结构变化信息包括新增列时,将所述待存储数据中的新增的数据列移动到其它数据列之后;
当所述数据结构变化信息包括列位置调整时,按照Hive表各数据列的位置调整所述待存储数据的相应数据列的位置。
在本申请的另一个实施例中,所述Hadoop平台下的数据处理方法还包括:
确定数据查询指令中指定的时间点对应的已存储数据的Hive表结构;
读取已经存储的数据,并根据确定的Hive表结构在已存储数据末尾增加空值数据列或删除多余数据列,得到查询数据。
在本申请的又一实施例中,所述Hadoop平台下的数据处理方法还包括:按照更新后的Hive表结构,重新存储已存储数据。
为了解决上述问题,本申请还公开了一种Hadoop平台下的数据处理系统,包括:
数据结构提取模块,用于获取Hadoop平台存量数据的Hive表结构信息,将待存储数据的结构信息与所述Hive表结构信息进行比较,获得数据结构变化信息;
Hive表更新模块,用于根据获得的所述数据结构变化信息和获取的所述存量数据的Hive表结构信息,更新Hive表结构;
数据存储模块,用于按照所述更新后的Hive表结构格式化所述待存储数据,并存储格式化后的所述待存储数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京先进数通信息技术股份公司,未经北京先进数通信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510892226.1/2.html,转载请声明来源钻瓜专利网。