[发明专利]一种大数据仓库数据生命周期治理的方法在审
申请号: | 202210046452.8 | 申请日: | 2022-01-13 |
公开(公告)号: | CN114546965A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 杨勇;赵春 | 申请(专利权)人: | 北京掌上乐游科技有限公司 |
主分类号: | G06F16/174 | 分类号: | G06F16/174;G06F16/182;G06F16/215;G06F16/22 |
代理公司: | 北京华际知识产权代理有限公司 11676 | 代理人: | 钟延珍 |
地址: | 100124 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据仓库 数据 生命周期 治理 方法 | ||
1.一种大数据仓库数据生命周期治理的方法,其特征在于,包括以下步骤:
S101、建立数据生命周期管理WEB平台,通过数据生命周期管理WEB平台对录入数据进行自动检测和扫描识别;
S102、通过数据生命周期管理WEB平台的扫描识别数据生命周期,对所述扫描出的数据进行僵尸数据的甄别去重;
S103、根据录入数据的用户请求,进行数据自助压缩服务,同时识别所述压缩数据的数据仓库分区表目录;
S104、通过根据扫描出的无效数据进行数据安全性下线处理。
2.根据权利要求1所述的一种大数据仓库数据生命周期治理的方法,其特征在于,还包括僵尸数据的甄别去重方法,具体包括:
S201、建采集解析分布式文件子系统元数据获取信息,建立元数据镜像文件;
S202、拷贝最新的文件系统元数据镜像文件,针对镜像文件进行切片;
S203、加载切片后的元数据镜像文件数据到解析引擎,解析结果异步传输到消息管道;
S204、针对消息管道数据进行过虑,去除无用的元数据;
S205、采用并行按照消息分区进行逻辑处理,更新库表访问时间的信息进行僵尸数据和冷热数据的鉴别。
3.根据权利要求1所述的一种大数据仓库数据生命周期治理的方法,其特征在于,所述元数据镜像文件为分布式文件系统元数据的一个永久性的检查点,包含文件系统的所有目录和文件inode的序列化信息。
4.根据权利要求1所述的一种大数据仓库数据生命周期治理的方法,其特征在于,所述数据自助压缩服务包括以下步骤:
S301、针对不同表的元数据采集需要配置不同的插件,例如采集分区表,需要配置分区字段、外表需要配置实际数据存储的路径等。定义好不同的插件,然后收集元数据;
S302、针对不同类型的数据加载压缩插件;
S303、加载数据仓库元信息,根据分区情况,制定压缩目录合并规则;
S304、预选和智能选择;
S305、启动引擎根据压缩元信息选择不同的压缩组件,进行数据压缩;
S306、移除历史数据,切换数据源到已压缩数据。
5.根据权利要求1所述的一种大数据仓库数据生命周期治理的方法,其特征在于,所述数据安全下线服务包括以下步骤:
S401、根据业务规则,将目标库表加入下线队列;
S402、修改表元数据,对目标表进行重命名;
S403、一定周期后,业务无反馈异常,则删除该表,保留物理数据;
S404、确定业务不受影响后,物理数据删除,表元数据完成安全下线。
6.根据权利要求4所述的一种大数据仓库数据生命周期治理的方法,其特征在于,所述S302所述的数据加载压缩插件为GZIP、Snappy、BZip2、Parquet格式+Snappy。
7.根据权利要求5所述的一种大数据仓库数据生命周期治理的方法,其特征在于,所述S402对目标重命名包括表后缀增加_delete。下游业务如果依赖该表,则会产生依赖报错,业务判断是否需要回滚安全下线。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京掌上乐游科技有限公司,未经北京掌上乐游科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210046452.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置