[发明专利]一种Redshift外部表动态列的处理方法及装置有效

专利信息
申请号: 201910565114.3 申请日: 2019-06-26
公开(公告)号: CN110297830B 公开(公告)日: 2021-09-14
发明(设计)人: 朱亮;徐滢 申请(专利权)人: 成都品果科技有限公司
主分类号: G06F16/22 分类号: G06F16/22
代理公司: 成都高远知识产权代理事务所(普通合伙) 51222 代理人: 曾克;施磊
地址: 610000 四川省成都市*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 redshift 外部 动态 处理 方法 装置
【说明书】:

发明公开一种Redshift外部表动态列的处理方法及装置,包括:加载Redshift外部表的第一表头信息;所述第一表头信息包括:外部表的列名称,所述列名称与待存储的Spark DataFrame列的映射关系,所述列名称的使用情况;根据所述第一表头信息,将所述Redshift外部表的列与所述待存储的Spark DataFrame的列进行一一映射,生成Redshift外部表的第二表头信息;根据所述第二表头信息,更新所述待存储的Spark DataFrame的表头结构,获取更新后的Spark DataFrame;将所述更新后的Spark DataFrame存储于所述Redshift外部表。本发明提供的技术方案,能够动态地改变Redshift外部表的列结构,简化操作。

技术领域

本发明涉及数据处理技术领域,尤其涉及一种Redshift外部表动态列的处理方法及装置。

背景技术

亚马逊云服务提供一系列基础服务,其中包括AwSRedshift。AWSRedshift是一个快速、可扩展的数据仓库,可以简单、经济、高效地分析数据仓库和数据湖中的所有数据。AWS Redshift作为落地数据清洗后的存储介质和分析引擎,数据分析部门可以直接对数据进行查看、抽取、汇总等操作。

现有的以天为粒度的统计数据存储于AWS Redshift服务器上,以天为分区键。出于对存储成本和安全的考虑,我们会为每一份数据在AWS S3中保留一份拷贝,AWSRedshift服务器只存储近3月的数据。对于存储于AWS Redshift服务器上的数据,因为数据引擎的支持,改变表的列结构是没问题的。

而对于统计粒度要求更高的数据,比如精细到Session级别的数据(用户操作间隔不超过5分钟,被认为是一个Session),因成本的限制其数据体量不适合存储至AWSRedshift服务器上。通过Amazon Redshift Spectrum工-具的支持,可以为这类数据选择成本更低的AWS S3作为存储介质,然后将数据以外部表的形式注册于AWS Redshift中,即把AWS S3数据与AWS Redshift声明的外部表关联起来,这样数据部门可以像使用普通表一样查看这些数据。但是这种存储方式不支持对列结构的直接修改。当需要对表的列结构进行修改时(例如,需要作废或增加一些统计信息时),都只能先删除Amazon Redshift外部表,再按照新的列结构重新建立此表,操作上非常不方便。

发明内容

本发明旨在提供一种Redshift外部表动态列的处理方法及装置,能够动态地改变Redshift外部表的列结构,简化操作。

为达到上述目的,本发明采用的技术方案如下:

一种Redshift外部表动态列的处理方法,包括:加载Redshift外部表的第一表头信息;所述第一表头信息包括:外部表的列名称,所述列名称与待存储的Spark DataFrame列的映射关系,所述列名称的使用情况;根据所述第一表头信息,将所述Redshift外部表的列与所述待存储的Spark DataFrame的列进行一一映射,生成Redshift外部表的第二表头信息;根据所述第二表头信息,更新所述待存储的Spark DataFrame的表头结构,获取更新后的Spark DataFrame;将所述更新后的Spark DataFrame存储于所述Redshift外部表。

进一步地,还包括:根据所述第二表头信息,创建或更新Redshift View;所述Redshift View用于查询所述Redshift外部表中的预定列。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都品果科技有限公司,未经成都品果科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910565114.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top