[发明专利]一种基于Hadoop的海量小文件处理方法和设备在审
申请号: | 202010313667.2 | 申请日: | 2020-04-20 |
公开(公告)号: | CN111538702A | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 谢翔;王光勤 | 申请(专利权)人: | 北京京安佳新技术有限公司 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/14;G06F16/174;G06F16/182 |
代理公司: | 北京睿博行远知识产权代理有限公司 11297 | 代理人: | 龚家骅 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hadoop 海量 文件 处理 方法 设备 | ||
1.一种基于Hadoop的海量小文件处理方法,其特征在于,所述方法包括:
根据文件合并请求和预设合并路径获取与文件合并请求对应的大文件和索引文件,所述文件合并请求是在所述预设合并路径中小文件的数量达到预设阈值时触发的;
根据所述小文件和所述大文件确定所述小文件在所述索引文件中的索引信息;
根据所述小文件的预设压缩方式确定所述小文件在所述大文件中的压缩信息;
根据所述索引信息和所述压缩信息对所述小文件进行合并。
2.如权利要求1所述的方法,其特征在于,根据所述小文件的预设压缩方式确定所述小文件在所述大文件中的压缩信息,具体为:
基于所述预设压缩方式对所述小文件进行压缩;
根据所述压缩的结果确定所述小文件的压缩后长度及压缩后内容;
基于所述预设压缩方式、所述压缩后长度及所述压缩后内容确定所述小文件在所述大文件中的存储值,并将所述存储值确定为所述压缩信息。
3.如权利要求1所述的方法,其特征在于,根据文件合并请求和预设合并路径获取与文件合并请求对应的大文件和索引文件,具体为:
根据所述合并请求确定所述大文件的大文件名称和所述索引文件的索引文件名称;
根据所述大文件名称和所述索引文件名称判断所述预设合并路径中是否存在所述大文件和所述索引文件;
若是,打开所述大文件和所述索引文件;
若否,基于所述预设合并路径新建所述大文件和所述索引文件并打开。
4.如权利要求1所述的方法,其特征在于,根据所述小文件和所述大文件确定所述小文件在所述索引文件中的索引信息,具体为:
基于所述预设合并路径确定所述小文件的小文件名称;
根据所述小文件名称和所述大文件末尾的指针值确定所述索引信息。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
当接收到用户发送的文件检索请求时,基于所述文件检索请求获取待检索文件对应的目标小文件名称;
根据所述目标小文件名称和所述索引文件获取所述待检索文件对应的目标指针值;
根据所述目标指针值和所述大文件获取所述待检索文件。
6.如权利要求5所述的方法,其特征在于,根据所述目标小文件名称和所述索引文件获取所述待检索文件对应的目标指针值,具体为:
基于按行读取操作获取所述索引文件的行信息,所述索引文件是基于Java中的管道输入流打开的,所述行信息中包括所述小文件名称和所述指针值;
基于字符串划分操作确定与所述目标小文件名称匹配的匹配行信息,并将所述匹配行信息中的指针值确定为所述目标指针值。
7.如权利要求6所述的方法,其特征在于,基于字符串划分操作确定与所述目标小文件名称匹配的匹配行信息,具体为:
基于字符串划分操作从当前行信息中分别获取当前行的小文件名称和当前行的指针值;
若所述目标小文件名称与所述当前行的小文件名称匹配,将所述当前行信息确定为所述匹配行信息;
若所述目标小文件名称与所述当前行的小文件名称不匹配,将所述当前行的下一行作为新的当前行,并基于按行读取操作获取新的当前行信息,直至获取与所述目标小文件名称匹配的当前行的小文件名称,或直至读取完所述索引文件的所有行信息;
若读取完所述索引文件的所有行信息后仍未获取与所述目标小文件名称匹配的当前行的小文件名称,确定检索失败。
8.如权利要求5所述的方法,其特征在于,根据所述目标小文件名称和所述索引文件获取所述待检索文件对应的目标指针值,具体为:
基于按行读取操作获取所述索引文件的行信息,所述索引文件是基于Java中的管道输入流打开的,所述行信息中包括所述小文件名称和所述指针值;
基于正则表达式确定与所述目标小文件名称匹配的匹配行信息,并将所述匹配行信息中的指针值确定为所述目标指针值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京安佳新技术有限公司,未经北京京安佳新技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010313667.2/1.html,转载请声明来源钻瓜专利网。