[发明专利]数据清理方法和装置有效
申请号: | 201710693659.3 | 申请日: | 2017-08-14 |
公开(公告)号: | CN107609038B | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 毕杰山;钟超强 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/27 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 罗振安 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 清理 方法 装置 | ||
本申请公开了一种数据清理方法和装置,属于数据处理技术领域,所述方法包括:获取数据清理时间,所述数据清理时间为历史接收到数据清理请求时记录的时间,所述数据清理请求用于清理所述分布式数据库中满足清理条件的数据;获取所述分布式数据库中不满足所述清理条件的数据,以及满足所述清理条件但数据存储时间晚于所述数据清理时间的数据;在所述分布式数据库中合并获取到的所述数据。解决了现有技术中数据清理的性能低下以及可能会影响服务性能的问题,达到了可以提高数据清理的性能的效果。
技术领域
本申请涉及数据处理技术领域,特别涉及一种数据清理方法和装置。
背景技术
HBase(Hadoop Database,Hadoop数据库)具有分布式、高可靠、高性能、基于KeyValue存储等特点,因此越来越多的企业和用户使用HBase来存构建数据表。
在HBase中存储数据之后,用户可以删除其中的某些数据。因此为了释放HBase的存储空间,可以清理HBase中的数据。相关技术提供的一种数据清理方法包括:为分布式存储的各数据分区关联一个Map,读取数据分区中的各条数据,根据删除条件生成满足删除条件的数据所对应的删除标记,将删除标记输出至Resucer中,此后在Resucer阶段汇总所有的删除标记,并合并不具备删除标记的数据。
由上述方案可知,上述数据清理方法需要先读取所有数据,数据清理的性能低下。同时,由于数据清理的性能低下,因此数据清理持续的时间较长,影响服务性能。
发明内容
为了解决相关技术中电源的输入电压的范围较窄的问题,本申请实施例提供了一种数据清理方法和装置。
第一方面,提供了一种数据清理方法,该方法用于清理分布式数据库中的数据,该方法包括:
获取数据清理时间,所述数据清理时间为历史接收到数据清理请求时记录的时间,所述数据清理请求用于清理所述分布式数据库中满足清理条件的数据;
获取所述分布式数据库中不满足所述清理条件的数据,以及满足所述清理条件但数据存储时间晚于所述数据清理时间的数据;
在所述分布式数据库中合并获取到的所述数据。
通过获取数据清理时间,数据清理时间为历史接收到数据清理请求时记录的时间,数据清理请求用于清理分布式数据库中满足清理条件的数据;进而仅获取不满足清理条件的数据,以及满足清理条件但数据存储时间晚于数据清理时间的数据,合并获取到的数据;解决了现有技术中数据清理的性能低下以及可能会影响服务性能的问题,达到了可以提高数据清理的性能的效果。
在第一方面的第一种可能的实现方式中,所述分布式数据库包括n个数据文件,n为大于等于2的整数,所述清理条件包括清理全表的数据;
所述获取所述分布式数据库中不满足所述清理条件的数据,以及满足所述清理条件但数据存储时间晚于所述数据清理时间的数据,包括:
对于所述n个文件中的每个文件,获取所述文件中的各条数据所对应的最大时间戳以及最小时间戳;
若所述最大时间戳早于所述数据清理时间,则跳过所述文件;
若所述最大时间戳晚于所述数据清理时间且所述最小时间戳早于所述数据清理时间,则遍历所述文件中的各条数据,读取时间戳晚于所述数据清理时间的数据;
若所述最小时间戳晚于所述数据清理时间,则读取所述文件中的各条数据。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述获取数据清理时间之前,所述方法还包括:
接收所述数据清理请求;
在所述全表所对应的属性描述文件中,将接收到所述数据清理请求的时间记录为所述数据清理时间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710693659.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置