[发明专利]一种适应海量存储的数据清理方法及系统在审
申请号: | 201310282142.7 | 申请日: | 2013-07-05 |
公开(公告)号: | CN103353892A | 公开(公告)日: | 2013-10-16 |
发明(设计)人: | 鲁冬林;王超峰 | 申请(专利权)人: | 北京东方网信科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京法思腾知识产权代理有限公司 11318 | 代理人: | 杨小蓉;杨青 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适应 海量 存储 数据 清理 方法 系统 | ||
1.一种适应海量存储的数据清理方法,所述方法包含:
步骤101)用于在云存储的挂载点下建立若干级目录,将文件存放于挂载的目录中,其中,各级目录的名称根据文件名的若干字节形成;
步骤102)采用分布策略对指定的某一级目录进行检索,获得该目录下各文件的最后访问时间,所述的分布策略为同时启动多个进程;
步骤103)依据各文件的最后访问时间与当前扫描时刻的差值判断应该删除哪些文件,具体为:
设定初始阈值,查找上述差值大于初始阈值的文件作为待删除的文件;如果没有找到待清除的文件,则减小初始阈值,重新查找差值大于减小后的初始阈值的文件作为待删除文件,直至释放的存储空间满足需求。
2.根据权利要求1所述的适应海量存储的数据清理方法,其特征在于,所述步骤101)进一步包含:
步骤101-1)在云存储的挂载点下建立两级目录;
步骤102)第一级目录使用文件名首字节转换为十六进制字符后命名,名称范围是00-FF共256个目录,每个文件检查首字节后会被定位到一个一级目录中;第二级目录建立在一级目录中,使用文件名中末尾字节转换为十六进制字符后命名,名称范围为00-FF共256个目录,每个文件被定位到一级目录后,再检查文件名的末尾字节后,文件最终被保存到该一级目录下的一个二级目录中。
3.根据权利要求2所述的适应海量存储的数据清理方法,其特征在于,所述步骤102)在一台服务器启动多个进程,或者将数据检索任务部署至多台服务器上,同时对云存储内的文件数据进行检索;
其中,限定每个二级目录只允许一个数据检索子系统进行操作。
4.根据权利要求1所述的适应海量存储的数据清理方法,其特征在于,所述103)还包含删除某个指定文件的步骤。
5.一种适应海量存储的数据清理系统,其特征在于,所述系统包含:存储模块,数据检索模块、分布式管理模块、智能决策模块和数据删除模块;
所述存储模块,用于在云存储的挂载点下建立若干级目录,将文件存放于挂载的目录中,其中,用文件名的若干字节构成各级目录的名称;
所述数据检索模块,用于检索指定目录中的指定类型文件,同时提取被检索文件的必要信息,然后将这些信息提供给智能决策模块,作为智能决策模块作出决策的依据;
所述分布式管理模块,用于采用分布式策略控制和管理若干个数据检索模块和数据删除模块;
所述智能决策模块,用于决策存储空间中的文件是否应该被删除以及控制数据检索模块是否应该结束该目标目录的检索操作,同时根据磁盘容量情况对设定的文件删除条件阈值进行动态调整;
所述数据删除模块,用于执行删除目标文件以及该目标文件相关的附属文件,同时向其他相关模块汇报目标文件删除信息;
其中,所述数据检索模块对分布式管理模块指定的目录进行检索,找到文件后查看文件最后访问时间,同时将最后访问时间传输至智能决策模块,智能决策模块返回判定结果,如果文件满足删除条件,则数据检索模块通知数据删除模块对文件进行删除。
6.根据权利要求5所述的适应海量存储的数据清理系统,其特征在于,所述数据检索模块进一步包含:
接收子模块,用于接收分布式管理模块指定待检索的目录号;
检索子模块,用于对于接收的目录进行检索;
终止检索子模块,用于接收智能决策模块返回的终止检索指令。
7.根据权利要求5所述的适应海量存储的数据清理系统,其特征在于,所述智能决策模块进一步包含:
初始阈值设定子模块,用于设定数据扫描模块扫描时所依据的时间段的长度值,当启动删除操作时以该初始阈值作为判断是否删除文件的依据;
第一判决输出子模块,当采用初始阈值没有找到能够删除的文件时,将启动自减子模块;
自减子模块,用于依据设定步长减小设定的初始阈值,该初始阈值包含依据初始阈值设定子模块设定的初始阈值也包含采用该自减子模块更新后的初始阈值;将减小的初始阈值输入扫描模块重新扫描;
数据扫描子模块,用于依据初始阈值子模块设定的初始阈值或者自减子模块更新的初始阈值确定待删除的文件,具体为当文件最近一次的更新时刻距离当前扫描时刻的差值大于或等于依据初始阈值子模块设定的初始阈值或者自减子模块更新的初始阈值时,则这些文件为待删除的文件;
累加子模块,用于将删除文件后增加的空间容量进行累加;和
判决子模块,用于将累加子模块得到的总空间容量与所需的总容量进行比较,如果累加子模块得到的总空间容量小于所需的总容量时,驱动数据检索模块继续检索;如果累加子模块得到的总空间容量大于所需的总容量时,则终止数据检索子模块的检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京东方网信科技股份有限公司,未经北京东方网信科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310282142.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置