[发明专利]数据处理方法、装置、电子设备及存储介质在审
申请号: | 201911358402.8 | 申请日: | 2019-12-25 |
公开(公告)号: | CN113031852A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 陈明 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06;G06F16/182;G06F16/16;G06F16/172 |
代理公司: | 北京智信四方知识产权代理有限公司 11519 | 代理人: | 钟文芳;宋海龙 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 存储 介质 | ||
本公开实施例公开了一种数据处理方法、装置、电子设备及存储介质,所述方法包括:接收分布式计算任务发起的针对本地磁盘的I/O操作;调用分布式文件系统在目标虚拟磁盘上执行所述I/O操作;其中,所述目标虚拟磁盘创建在执行所述分布式计算任务的所述分布式计算设备上。该技术方案由于对目标虚拟磁盘的读写等操作采用分布式文件系统进行管理,因此对于分布式计算任务产生的中间数据可以进行统一管理,克服了直接使用分布式计算设备本地的物理磁盘存储中间数据,导致的物理磁盘整体使用效率低下的缺陷。
技术领域
本公开涉及计算机技术领域,具体涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
大数据领域通常使用分布式计算来进行大规模并行处理,大数据不仅体现在输入数据量巨大,往往中间数据量也非常庞大。已有技术中,大数据集群系统通常采用普通的商用服务器,每台服务器拥有多块物理磁盘。为了充分使用文件系统内核特性或者受限于所使用的第三方本地库,分布式计算框架的线程或者进程往往直接使用本地磁盘存放中间数据,这些中间数据缺乏统一管理,导致本地磁盘整体使用效率低下,主要表现在以下三个方面:第一、磁盘带宽使用不均匀,不能充分利用;第二、磁盘空间使用不均匀,不能充分利用;第三、不同负载和优先级的作业不能做到I/O隔离。
发明内容
本公开实施例提供一种数据处理方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例中提供了一种数据处理方法。
具体的,所述数据处理方法,包括:
接收分布式计算任务发起的针对本地磁盘的I/O操作;
调用分布式文件系统在目标虚拟磁盘上执行所述I/O操作;其中,所述目标虚拟磁盘创建在执行所述分布式计算任务的所述分布式计算设备上。
进一步地,接收分布式计算任务发起的针对本地磁盘的I/O操作之前,所述方法还包括:
接收分配给所述分布式计算设备的所述分布式计算任务;
在所述分布式计算设备上为所述分布式计算任务创建所述目标虚拟磁盘。
进一步地,还包括:
调用所述分布式文件系统创建对应于所述目标虚拟磁盘的分布式文件。
进一步地,所述方法还包括:
响应于所述分布式计算任务的结束请求,释放所述目标虚拟磁盘。
进一步地,释放所述目标虚拟磁盘,包括:
格式化所述目标虚拟磁盘以及清空所述分布式文件中的内容,并将所述目标虚拟磁盘缓存在预设缓存区中;和/或
删除所述目标虚拟磁盘以及调用所述分布式文件系统删除所述分布式文件。
进一步地,接收分布式计算任务发起的针对本地磁盘的I/O操作之前,所述方法还包括:
接收分配给所述分布式计算设备的所述分布式计算任务;
将预设缓冲区中缓存的所述目标虚拟磁盘分配给所述分布式计算任务。
进一步地,所述目标虚拟磁盘包括云盘。
第二方面,本发明实施例中提供了一种数据处理装置。
具体的,所述数据处理装置,包括:
第一接收模块,被配置为接收分布式计算任务发起的针对本地磁盘的I/O操作;
执行模块,被配置为调用分布式文件系统在目标虚拟磁盘上执行所述I/O操作;其中,所述目标虚拟磁盘创建在执行所述分布式计算任务的分布式计算设备上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911358402.8/2.html,转载请声明来源钻瓜专利网。