[发明专利]Hadoop文件处理方法、装置、存储介质及服务器在审
申请号: | 201910840684.9 | 申请日: | 2019-09-06 |
公开(公告)号: | CN110765082A | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 李亮光 | 申请(专利权)人: | 深圳平安通信科技有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/182 |
代理公司: | 44414 深圳中一联合知识产权代理有限公司 | 代理人: | 刘永康 |
地址: | 518000 广东省深圳市前海深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件条目 文件处理 文件信息表 集合 文件筛选 指定文件 维度 计算机可读存储介质 分布式文件系统 计算机技术领域 指令 接收终端设备 处理效率 批量文件 提取文件 文件信息 文件组成 升序 预设 排序 服务器 存储 查找 筛选 | ||
本发明属于计算机技术领域,尤其涉及一种Hadoop文件处理方法、装置、计算机可读存储介质及服务器。所述方法包括:接收终端设备下发的Hadoop文件处理指令,并从所述Hadoop文件处理指令中提取文件筛选维度、文件筛选范围以及文件处理方式;按照所述文件筛选维度对预设的第一文件信息表中的文件条目进行升序排序,得到第二文件信息表,所述第一文件信息表用于存储Hadoop分布式文件系统中的文件信息;在所述第二文件信息表中查找第一文件条目和第二文件条目;按照所述文件处理方式对指定文件集合进行处理,所述指定文件集合为由所述第一文件条目和所述第二文件条目之间的各个文件条目所对应的各个文件组成的集合。在需要进行批量文件处理时,极大提升了处理效率。
技术领域
本发明属于计算机技术领域,尤其涉及一种Hadoop文件处理方法、装置、计算机可读存储介质及服务器。
背景技术
Hadoop框架是目前主流的跨集群分布式大数据处理框架,其子模块Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是一个分布式的文件系统,该系统可以提供了高吞吐数据访问能力。包括亚马逊、Adobe和阿里巴巴在内的众多国内外大型企业都在使用Hadoop框架进行数据管理和分析工作。HDFS被设计成适合运行在通用硬件上的分布式文件系统,它和现有的分布式文件系统有很多共同点,但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,这样可以实现流的形式访问文件系统中的数据。HDFS fs是HDFS最常用的命令,这是一个高度类似linux文件系统的命令集。用户可以使用这些命令执行查看HDFS上的目录结构文件、上传和下载文件、创建文件夹、复制文件、删除文件夹、删除文件等操作处理。但目前使用HDFS fs命令进行文件处理时,其命令参数一般只能是文件名或文件夹,而无法根据文件日期、大小等其他维度的信息进行文件处理,在需要进行批量文件处理时,处理效率极为低下。
发明内容
有鉴于此,本发明实施例提供了一种Hadoop文件处理方法、装置、计算机可读存储介质及服务器,以解决现有的Hadoop文件处理方法在需要进行批量文件处理时,处理效率极为低下的问题。
本发明实施例的第一方面提供了一种Hadoop文件处理方法,可以包括:
接收终端设备下发的Hadoop文件处理指令,并从所述Hadoop文件处理指令中提取文件筛选维度、文件筛选范围以及文件处理方式;
按照所述文件筛选维度对预设的第一文件信息表中的文件条目进行升序排序,得到第二文件信息表,所述第一文件信息表用于存储Hadoop分布式文件系统中的文件信息;
在所述第二文件信息表中查找第一文件条目和第二文件条目,所述第一文件条目为顺序查找到的第一个满足所述文件筛选范围的下限的文件条目,所述第二文件条目为逆序查找到的第一个满足所述文件筛选范围的上限的文件条目;
按照所述文件处理方式对指定文件集合进行处理,所述指定文件集合为由所述第一文件条目和所述第二文件条目之间的各个文件条目所对应的各个文件组成的集合。
本发明实施例的第二方面提供了一种Hadoop文件处理装置,可以包括:
指令接收模块,用于接收终端设备下发的Hadoop文件处理指令,并从所述Hadoop文件处理指令中提取文件筛选维度、文件筛选范围以及文件处理方式;
文件条目排序模块,用于按照所述文件筛选维度对预设的第一文件信息表中的文件条目进行升序排序,得到第二文件信息表,所述第一文件信息表用于存储Hadoop分布式文件系统中的文件信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳平安通信科技有限公司,未经深圳平安通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910840684.9/2.html,转载请声明来源钻瓜专利网。