[发明专利]一种Spark分布式计算数据处理方法及系统有效

专利信息
申请号: 201710742728.5 申请日: 2017-08-25
公开(公告)号: CN107526546B 公开(公告)日: 2020-09-11
发明(设计)人: 毛睿;陆敏华;陆克中;朱金彬;隋秀峰 申请(专利权)人: 深圳大学
主分类号: G06F3/06 分类号: G06F3/06
代理公司: 深圳市恒申知识产权事务所(普通合伙) 44312 代理人: 王利彬
地址: 518060 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 spark 分布式 计算 数据处理 方法 系统
【说明书】:

发明公开了一种Spark分布式计算数据处理方法,涉及计算机领域,该方法包括:通过任务调度器调度子任务,执行RDD分区数据存储任务,申请存储区空间;计算存储区内可驱逐空间及空间的大小,根据分区数据访问热度设置混合存储系统的迁移地址;读取指定存储区内已缓存数据并释放相应的内存空间,迁移分区数据到指定地址,修改迁移数据的持久化级别,反馈驱逐成功信号及驱逐空间信息。本发明还公开了一种Spark分布式计算系统,通过引入混合存储系统,并设计驱逐逻辑单元和缓存数据迁移单元,根据分区数据热度将数据迁移至SSD或HDD,而非直接将数据迁移至磁盘或踢除已缓存的数据,能够有效地缓解内存空间不足的压力,实现Spark性能的提升。

技术领域

本发明涉及计算机领域,尤其涉及一种Spark分布式计算数据处理方法及系统。

背景技术

随着社会科学技术水平的提高,人们与对大规模数据处理的要求也越来越高,其中大数据应用对内存产生了强烈的依赖,充裕的内存是快速计算大数据的前提和保障。

Spark作为通用、快速、大规模数据处理引擎,已经成为大数据应用领域流行的计算框架,尤其在诸如图计算、机器学习等迭代计算的应用领域表现出色,随着数据集规模的不断扩大,由于空间的不足导致部分分区数据无法缓存至内存,或,已缓存至内存的数据需要迁移至磁盘,造成Spark性能的下降,针对该问题,Spark提出并设计了统一内存管理模型,当分区数据的缓存任务无法申请足够存储区空间时,主动迁移存储区内已缓存的数据至磁盘或直接剔除;统一内存管理模型具有一定的灵活性,通过迁移或剔除已缓存的数据,有效地缓解了Spark缓存大数据的需求与存储区空间不足的压力。

然而,由于已缓存的中间数据被剔除或迁移至磁盘,导致再次调用该数据时必须重新执行相应的计算任务来获取数据或读取磁盘获取缓存数据,所以Spark统一内存管理模型引发了Spark部分任务重复计算或磁盘读取的问题,对Spark性能产生恶劣的影响。

发明内容

本发明的主要目的在于提供一种Spark分布式计算数据处理方法及系统,旨在解决现有技术中Spark统一内存管理模型中Spark部分任务重复计算或磁盘读取的技术问题。

为实现上述目的,本发明第一方面提供一种Spark分布式计算系统数据处理方法,所述方法包括:

在对用户已标识缓存的弹性分布式数据集RDD分区数据执行存储任务时,若向Spark的内存存储区申请空间失败,则向驱逐逻辑单元发送驱逐所述内存存储区可驱逐缓存数据的命令;

计算所述内存存储区内可驱逐空间大小,若驱逐后空间大小满足所述存储任务对所述内存存储区空间的要求,则根据所述内存存储区可驱逐缓存数据访问热度设置基于SSD和HDD的混合存储系统的迁移地址;

读取并释放所述内存存储区内可驱逐缓存数据,迁移所述内存存储区内可驱逐缓存数据到所述迁移地址,修改所述内存存储区内可驱逐缓存数据持久化级别,反馈驱逐成功信号及驱逐信息。

为实现上述目的,本发明第二方面还提供一种一种Spark分布式计算数据处理系统,所述系统包括:

申请存储模块,用于在对用户已标识缓存的弹性分布式数据集RDD分区数据执行存储任务时,若向Spark的内存存储区申请空间失败,则向驱逐逻辑单元发送驱逐所述内存存储区缓存数据的命令;

计算分址模块,用于计算所述内存存储区内可驱逐空间大小,若驱逐后空间大小满足所述存储任务对所述内存存储区空间的要求,则根据所述内存存储区可驱逐缓存数据访问热度设置基于SSD和HDD的混合存储系统的迁移地址;

数据迁移模块,用于读取并释放所述内存存储区内可驱逐缓存数据,迁移所述内存存储区内可驱逐缓存数据到所述迁移地址,修改所述内存存储区内可驱逐缓存数据持久化级别,反馈驱逐成功信号及驱逐信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710742728.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code