[发明专利]一种大数据仓库数据生命周期治理的方法在审
申请号: | 202210046452.8 | 申请日: | 2022-01-13 |
公开(公告)号: | CN114546965A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 杨勇;赵春 | 申请(专利权)人: | 北京掌上乐游科技有限公司 |
主分类号: | G06F16/174 | 分类号: | G06F16/174;G06F16/182;G06F16/215;G06F16/22 |
代理公司: | 北京华际知识产权代理有限公司 11676 | 代理人: | 钟延珍 |
地址: | 100124 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据仓库 数据 生命周期 治理 方法 | ||
本发明公开了一种大数据仓库数据生命周期治理的方法,属于数据处理技术领域。本发明中,通过对分布式文件系统元数据进行实时解析、过滤、分片、并行解析,使得解析效率提升,通过一套自动化流程的建设,完成数据安全下线的整个过程,对业务的影响最小化,支持回滚操作,针对大规模海量数据的集群,可以快速在分钟级别审计出文件的访问信息,及时发现冷热数据、僵尸数据,通过数据生命周期治理系统可以协助企业全面掌控数据资产现状、提升数据质量、降低无效数据存储成本,为企业数据治理提供有效决策信息。
技术领域
本发明属于数据处理技术领域,尤其涉及一种大数据仓库数据生命周期治理的方法。
背景技术
数据仓库,英文名称为Data Warehouse,可简写为DW,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
数据仓库作为一种传统的数据技术在大数据时代依然焕发着自己的活力,然而在大数据时代,数据仓库的存储介质、计算引擎以及应用场景反面都发生了很大的改变;传统数仓构建在关系型数据库之上,一般用于存储GB级别的数据,例如:Oracle、SQLServer、Mysql等数据库,现在大数据数仓可以采用PB级别的分布式存储系统,例如:Hadoop、Clickhouse等,这就意味着需要消耗更多的机器资源进行数据存储,为了降低数据的存储成本,甄别无效数据以及全生命周期的数据治理工作则意义重大。
中国专利文献CN113886378A公开了一种大数据治理系统,包括:对数据进管理的数据清洗管理模块;数据清洗管理模块包括:数据清洗规则定义单元,用于定义清洗数据的规则;数据清洗查询单元,用于查询数据;数据清洗规则展示单元,用于展示数据清洗的规则;数据修改及删除单元,用于对数据进行修改或进行数据删除。通过对数据清洗规则的定义,以对数据进行管理,实现对数据进行检测,避免删除或清洗掉关键和必要的数据,但在实际使用时,其对数据清洗时无法调控数据修改后的数据层框架安全性,同时不能很好的识别定位待处理数据,进而影响到数据处理效果。
发明内容
本发明的目的在于:为了解决对数据清洗时无法调控数据修改后的数据层框架安全性,同时不能很好的识别定位待处理数据的问题,而提出的一种大数据仓库数据生命周期治理的方法。
为了实现上述目的,本发明采用了如下技术方案:
一种大数据仓库数据生命周期治理的方法,包括以下步骤:
S101、建立数据生命周期管理WEB平台,通过数据生命周期管理WEB平台对录入数据进行自动检测和扫描识别;
S102、通过数据生命周期管理WEB平台的扫描识别数据生命周期,对所述扫描出的数据进行僵尸数据的甄别去重;
S103、根据录入数据的用户请求,进行数据自助压缩服务,同时识别所述压缩数据的数据仓库分区表目录;
S104、通过根据扫描出的无效数据进行数据安全性下线处理。
作为上述技术方案的进一步描述:
还包括僵尸数据的甄别去重方法,具体包括:
S201、建采集解析分布式文件子系统元数据获取信息,建立元数据镜像文件;
S202、拷贝最新的文件系统元数据镜像文件,针对镜像文件进行切片;
S203、加载切片后的元数据镜像文件数据到解析引擎,解析结果异步传输到消息管道;
S204、针对消息管道数据进行过虑,去除无用的元数据;
S205、采用并行按照消息分区进行逻辑处理,更新库表访问时间的信息进行僵尸数据和冷热数据的鉴别。
作为上述技术方案的进一步描述:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京掌上乐游科技有限公司,未经北京掌上乐游科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210046452.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置