[发明专利]一种Redshift外部表动态列的处理方法及装置有效
申请号: | 201910565114.3 | 申请日: | 2019-06-26 |
公开(公告)号: | CN110297830B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 朱亮;徐滢 | 申请(专利权)人: | 成都品果科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22 |
代理公司: | 成都高远知识产权代理事务所(普通合伙) 51222 | 代理人: | 曾克;施磊 |
地址: | 610000 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 redshift 外部 动态 处理 方法 装置 | ||
本发明公开一种Redshift外部表动态列的处理方法及装置,包括:加载Redshift外部表的第一表头信息;所述第一表头信息包括:外部表的列名称,所述列名称与待存储的Spark DataFrame列的映射关系,所述列名称的使用情况;根据所述第一表头信息,将所述Redshift外部表的列与所述待存储的Spark DataFrame的列进行一一映射,生成Redshift外部表的第二表头信息;根据所述第二表头信息,更新所述待存储的Spark DataFrame的表头结构,获取更新后的Spark DataFrame;将所述更新后的Spark DataFrame存储于所述Redshift外部表。本发明提供的技术方案,能够动态地改变Redshift外部表的列结构,简化操作。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种Redshift外部表动态列的处理方法及装置。
背景技术
亚马逊云服务提供一系列基础服务,其中包括AwSRedshift。AWSRedshift是一个快速、可扩展的数据仓库,可以简单、经济、高效地分析数据仓库和数据湖中的所有数据。AWS Redshift作为落地数据清洗后的存储介质和分析引擎,数据分析部门可以直接对数据进行查看、抽取、汇总等操作。
现有的以天为粒度的统计数据存储于AWS Redshift服务器上,以天为分区键。出于对存储成本和安全的考虑,我们会为每一份数据在AWS S3中保留一份拷贝,AWSRedshift服务器只存储近3月的数据。对于存储于AWS Redshift服务器上的数据,因为数据引擎的支持,改变表的列结构是没问题的。
而对于统计粒度要求更高的数据,比如精细到Session级别的数据(用户操作间隔不超过5分钟,被认为是一个Session),因成本的限制其数据体量不适合存储至AWSRedshift服务器上。通过Amazon Redshift Spectrum工-具的支持,可以为这类数据选择成本更低的AWS S3作为存储介质,然后将数据以外部表的形式注册于AWS Redshift中,即把AWS S3数据与AWS Redshift声明的外部表关联起来,这样数据部门可以像使用普通表一样查看这些数据。但是这种存储方式不支持对列结构的直接修改。当需要对表的列结构进行修改时(例如,需要作废或增加一些统计信息时),都只能先删除Amazon Redshift外部表,再按照新的列结构重新建立此表,操作上非常不方便。
发明内容
本发明旨在提供一种Redshift外部表动态列的处理方法及装置,能够动态地改变Redshift外部表的列结构,简化操作。
为达到上述目的,本发明采用的技术方案如下:
一种Redshift外部表动态列的处理方法,包括:加载Redshift外部表的第一表头信息;所述第一表头信息包括:外部表的列名称,所述列名称与待存储的Spark DataFrame列的映射关系,所述列名称的使用情况;根据所述第一表头信息,将所述Redshift外部表的列与所述待存储的Spark DataFrame的列进行一一映射,生成Redshift外部表的第二表头信息;根据所述第二表头信息,更新所述待存储的Spark DataFrame的表头结构,获取更新后的Spark DataFrame;将所述更新后的Spark DataFrame存储于所述Redshift外部表。
进一步地,还包括:根据所述第二表头信息,创建或更新Redshift View;所述Redshift View用于查询所述Redshift外部表中的预定列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都品果科技有限公司,未经成都品果科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910565114.3/2.html,转载请声明来源钻瓜专利网。