[发明专利]一种基于Spark算子的序列化存储优化方法有效

专利信息
申请号: 201710160862.4 申请日: 2017-03-17
公开(公告)号: CN106874215B 公开(公告)日: 2020-02-07
发明(设计)人: 熊安萍;杨方方;邹洋;祝清意 申请(专利权)人: 重庆邮电大学
主分类号: G06F12/02 分类号: G06F12/02;G06F12/0806
代理公司: 11275 北京同恒源知识产权代理有限公司 代理人: 廖曦
地址: 400065 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 spark 算子 序列 存储 优化 方法
【说明书】:

发明公开了一种基于Spark算子的序列化存储优化方法,包括以下步骤:S1)使用ganglia检测应用执行过程中机器的内存使用量,如果检测到当前内存值正常,则继续监测,若检测到已达到指定阈值,则执行步骤S2);S2)计算RDD的执行时间和RDD的执行效率;S3)根据公式(5)得到已排序的RDD序列,即序列化候选集合;S4)从序列化候选集合中选择值最小的进行序列化存储;S5)继续步骤1),直到应用执行完毕。本发明实现在应用执行过程中高效存储有价值的RDD缓存,从而提高内存的使用率。相比与现有的缓存使用方案,本方法应用于现有的Spark大数据平台上,能够在内存资源有限时使整个应用保持较高的执行效率。

技术领域

本发明涉及大数据、内存计算领域,更为具体地讲,涉及一种自定义的序列化存储策略。

背景技术

大数据时代的到来,也引领了大数据处理平台生态圈的不断更新。由于MapReduce框架仅支持Map和Reduce两种操作,迭代计算效率低下,在交互式处理及流式计算环境下具有局限性,于是,一种可同时进行批处理、流式计算、交互式计算的高效分布式计算框架Spark应运而生。该框架采用弹性分布式数据集(RDD)基于缓存进行迭代计算,以提高计算效率。

大部分Spark程序都具有“内存计算”的天性,所以集群中的所有资源:CPU、网络带宽或者是内存都有可能成为Spark程序的瓶颈。由于在迭代计算中,要提高计算效率,最好是将数据全部加载进内存,但在大数据计算环境下,必然会有大的数据集存在,且缓存资源有限匮乏的问题,因此,数据集序列化存储成为关键。

为了提升缓存利用率,需要在RDD序列化过程中保证选出的RDD对象是后面较少会参与计算的RDD,而让后面需要迭代计算或者多次使用的RDD尽量保留在缓存中,然而,由于在任务调度的过程中,需要根据不同的业务逻辑使用不同的算子去处理所得到的RDD集合,而由于不同算子的内部实现不同,导致的在RDD数据集转换的过程中执行效率不同,而数据集本身的大小也不同,另外,RDD的生命周期即某一RDD数据集的使用次数,也对序列化存储策略的选择起到关键性的作用。因此,RDD序列化的选择会受到算子运行代价、RDD执行时间及RDD跨过的Action数量等因素的影响。

在当今大数据时代,大型公司、企事业单位、政府等机构业务系统复杂,数据形式多样化,急需引入新的大数据处理平台处理海量数据,而Spark则是基于内存计算的高效分布式框架,因此其内存称为处理数据速度提升的关键因素,但是由于缓存资源有限,在处理大数据集时仍然需要将部分数据序列化存储到磁盘,影响计算性能,因此合理高效的序列化存储策略,会成为提高基于缓存迭代计算效率亟待解决的问题。

发明内容

有鉴于此,本发明的目的是提供一种基于Spark算子的序列化存储优化方法。该方法应用于现有的Spark大数据平台上,能够在内存资源有限时使整个应用保持较高的执行效率。

本发明的目的是通过以下技术方案来实现的,一种基于Spark算子的序列化存储优化方法,包括以下步骤:

S1)使用ganglia检测应用执行过程中机器的内存使用量,如果检测到当前内存值正常,则继续监测,若检测到已达到指定阈值,则执行步骤S2);

S2)计算RDD的执行时间RDD的执行效率和算子权值Wi;

S3)根据RDD的执行时间RDD的执行效率和算子权值Wi得到已排序的RDD序列即序列化候选集合;

S4)从序列化候选集合中选择值最小的进行序列化存储;

S5)继续步骤1),直到应用执行完毕。

进一步,在步骤S2)中,所述执行时间通过公式(1)获得:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710160862.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top