[发明专利]一种针对Hadoop分布式文件系统的存储优化方法有效
申请号: | 202110644122.4 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113377733B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 王周恺;贾乔;马维纲;王怀军;曹霆;李宇昕;王侃 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/182;G06F16/172;G06F16/16 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 刘娜 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 hadoop 分布式 文件系统 存储 优化 方法 | ||
1.一种针对Hadoop分布式文件系统的存储优化方法,其特征在于,具体按照以下步骤实施:
步骤1,提取文件操作记录,具体为:
步骤1.1:选取INFO级别日志文件,所选取的日志文件包含具体执行时间戳和文件名信息;
步骤1.2:获取INFO级别日志文件的访问记录;
对于日志文件访问记录的获取,使用filter操作结合lambda表达式,从日志文件中找出所有包含completeFile关键字,由NameNode节点产生的信息,并提取出其中包含的时间戳关键字以及文件名关键字作为文件访问记录加以保存,存放到HDFS中;
步骤1.3:获取INFO级别日志文件的删除记录;
首先使用filter函数结合lambda表达式,从日志文件中找出所有包含addToInvalidates关键字,由NameNode节点产生的信息;然后提取出其中包含的时间戳关键字以及块名关键字;再利用相同的filter函数与lambda表达式,从日志文件中找出和addToInvalidates信息中所包含的块名关键字相同的,包含关键字allocateBlock的信息,并提取出其中包含的文件名关键字和时间戳关键字;最后,将上述allocateBlock信息中包含的文件名关键字和对应addToInvalidates信息中的时间戳关键字作为文件删除记录加以保存,存放到HDFS中;
步骤1.4:将IFNO级别日志中所有包含关键词的信息提取并整理,再按照时间戳进行排序并编号;选择type表示操作类型,1代表删除操作,0代表访问操作,F表示文件名称,d表示发生操作的时间;
步骤2:确定特征标签label,选取特征,构建特征向量,形成训练文件淘汰模型的样本集;具体为:
步骤2.1:定义样本集的label为“是否可以删除”;“yes”为正标签,表示文件复用可能性很低,可以删除,标定为“yes”的元组属于正样本;“no”为负标签,表示文件可能复用,不可删除,标定为“no”的元组属于负样本;
将每条文件访问、删除记录转为一条含特征标签的特征向量元组;对于元组特征,将type作为label信息;所述特征标签的主要对应规则如下:
对每一条文件操作记录r0:
a)若type=0,该记录被记为访问记录;表明在该文件操作发生的时间d时,对应文件F被复用;文件在d时具有复用可能性,不可删除;元组标定为“no”,为负样本;
b)若type=1,该记录被记为删除记录;表明在该文件操作发生的时间d时及以后,对应文件f不再具有复用可能性,可以删除;元组标定为“yes”,为正样本;
步骤2.2:选取特征;
将HDFS中的文件访问记录和文件删除记录全部取出,对于文件名相同的记录,计算创建时间长度dc,单位:天;未访问时长da,单位:天;创建至今平均每天访问频次frq;分别如式(1)、式(2)及式(3)所示,形成样本集的特征,由所述标签和所述特征组成的每一条记录也叫特征向量;
dc=d0-dc0 (1);
da=d0-da0 (2);
式中,dc0为文件创建日期;d0为文件时间戳;da0为文件最后一次访问日期;n0为至d0时刻对文件的访问次数;
步骤3:选择所述特征向量的三个特征dc、da、frq依次作为决策树的三个分类节点,采用ID3算法建立决策树,并由决策树构建文件淘汰模型;以MLlib为工具,调用MLlib的编程接口,以样本集作为输入,训练文件淘汰模型,待训练结束后,将其以json格式保存回HDFS上,供以后淘汰文件使用;
步骤4:使用建立的文件淘汰模型,预测文件可复用性。
2.根据权利要求1所述的一种针对Hadoop分布式文件系统的存储优化方法,其特征在于,所述步骤4中,具体为:首先要从HDFS上读入当前的文件列表,然后用已训练完毕的文件淘汰模型预测其可否删除;对每个文件,通过文件名从日志中提取所有该文件的操作记录,通过计算该文件在d时刻的label,dc,da,frq,得到一条特征向量,进入训练好的决策树预测,返回标签“可以删除yes”或“建议保留no”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110644122.4/1.html,转载请声明来源钻瓜专利网。