[发明专利]一种基于删除队列的分布式数据删除方法、装置及设备在审
申请号: | 202010471507.0 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111625506A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 刘洪栋;肖国栋 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/182 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张春辉 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 删除 队列 分布式 数据 方法 装置 设备 | ||
本申请公开了一种基于删除队列的分布式数据删除方法,包括:根据待删除文件对象生成删除信息项;将删除信息项追加至删除队列;将删除队列以日志文件的形式进行落盘,并在落盘完成后向业务层发送删除完成的消息;根据落盘后的删除队列,执行异步删除操作。可见,该方法引入删除队列,采用日志文件方式记录删除队列,实现异步删除操作,避免大数据计算场景下中间结果的删除任务对计算过程的影响,提升分布式集群的计算性能。此外,本申请还提供了一种基于删除队列的分布式数据删除装置、设备及可读存储介质,其技术效果与上述方法的技术效果相对应。
技术领域
本申请涉及计算机技术领域,特别涉及一种基于删除队列的分布式数据删除方法、装置、设备及可读存储介质。
背景技术
目前,分布式集群存储广泛应用于多种大数据场景下,如视频监控、广电媒资、高性能等。分布式文件系统中存在海量数据,用户对于计算产生的临时数据需要及时清理,尤其基因计算等大数据场景,一次基因测算会产生海量中间文件,如何及时删除临时文件成为计算的瓶颈。
可见,如何提升分布式集群的数据删除效率,是亟待本领域技术人员解决的问题。
发明内容
本申请的目的是提供一种基于删除队列的分布式数据删除方法、装置、设备及可读存储介质,用以解决当前分布式集群在大数据场景下会生成大量临时数据,影响分布式集群的计算性能的问题。具体方案如下:
第一方面,本申请提供了一种基于删除队列的分布式数据删除方法,包括:
根据待删除文件对象生成删除信息项,其中所述待删除文件对象为大数据计算场景下的中间结果,所述删除信息项包括待删除的元数据对象的存储信息和数据对象的存储信息;
将所述删除信息项追加至删除队列;
将所述删除队列以日志文件的形式进行落盘,并在落盘完成后向业务层发送删除完成的消息;
根据落盘后的删除队列,执行异步删除操作。
优选的,在所述根据待删除文件对象生成删除信息项之前,还包括:
接收来自业务层的删除请求;
根据所述删除请求确定待删除文件对象。
优选的,在所述根据待删除文件对象生成删除信息项之前,还包括:
遍历大数据计算场景下的中间结果,判断当前遍历到的文件对象的链接数是否为0,其中所述链接数表示挂载到文件对象的inode的数量;
若是,则判定所述当前遍历到的文件对象为待删除文件对象。
优选的,所述根据待删除文件对象生成删除信息项,其中所述待删除文件对象为大数据计算场景下的中间结果,所述删除信息项包括待删除的元数据对象的存储信息和数据对象的存储信息,包括:
根据待删除文件对象生成删除信息项,其中所述待删除文件对象为大数据计算场景下的中间结果,所述删除信息项包括待删除的元数据对象的存储信息和数据对象的存储信息,所述存储信息包括节点号、偏移量和对象大小。
优选的,所述将所述删除队列以日志文件的形式进行落盘,包括:
将所述删除队列以日志文件的形式进行增量落盘,其中所述删除队列与所述日志文件一一对应。
优选的,所述根据落盘后的删除队列,执行异步删除操作,包括:
判断当前数据对象删除速度是否小于等于预设的最大数据对象删除速度,并判断当前元数据对象删除速度是否小于等于预设的最大元数据对象删除速度;
若均小于,则根据落盘后的删除队列,执行异步删除操作;
否则,暂停异步删除操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010471507.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:交通流量数据聚类、补偿方法及设备
- 下一篇:一种水面下定深水体采集装置