[发明专利]一种基于Spark算子的序列化存储优化方法有效
申请号: | 201710160862.4 | 申请日: | 2017-03-17 |
公开(公告)号: | CN106874215B | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 熊安萍;杨方方;邹洋;祝清意 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F12/02 | 分类号: | G06F12/02;G06F12/0806 |
代理公司: | 11275 北京同恒源知识产权代理有限公司 | 代理人: | 廖曦 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 算子 序列 存储 优化 方法 | ||
本发明公开了一种基于Spark算子的序列化存储优化方法,包括以下步骤:S1)使用ganglia检测应用执行过程中机器的内存使用量,如果检测到当前内存值正常,则继续监测,若检测到已达到指定阈值,则执行步骤S2);S2)计算RDD的执行时间和RDD的执行效率;S3)根据公式(5)得到已排序的RDD序列,即序列化候选集合;S4)从序列化候选集合中选择值最小的进行序列化存储;S5)继续步骤1),直到应用执行完毕。本发明实现在应用执行过程中高效存储有价值的RDD缓存,从而提高内存的使用率。相比与现有的缓存使用方案,本方法应用于现有的Spark大数据平台上,能够在内存资源有限时使整个应用保持较高的执行效率。
技术领域
本发明涉及大数据、内存计算领域,更为具体地讲,涉及一种自定义的序列化存储策略。
背景技术
大数据时代的到来,也引领了大数据处理平台生态圈的不断更新。由于MapReduce框架仅支持Map和Reduce两种操作,迭代计算效率低下,在交互式处理及流式计算环境下具有局限性,于是,一种可同时进行批处理、流式计算、交互式计算的高效分布式计算框架Spark应运而生。该框架采用弹性分布式数据集(RDD)基于缓存进行迭代计算,以提高计算效率。
大部分Spark程序都具有“内存计算”的天性,所以集群中的所有资源:CPU、网络带宽或者是内存都有可能成为Spark程序的瓶颈。由于在迭代计算中,要提高计算效率,最好是将数据全部加载进内存,但在大数据计算环境下,必然会有大的数据集存在,且缓存资源有限匮乏的问题,因此,数据集序列化存储成为关键。
为了提升缓存利用率,需要在RDD序列化过程中保证选出的RDD对象是后面较少会参与计算的RDD,而让后面需要迭代计算或者多次使用的RDD尽量保留在缓存中,然而,由于在任务调度的过程中,需要根据不同的业务逻辑使用不同的算子去处理所得到的RDD集合,而由于不同算子的内部实现不同,导致的在RDD数据集转换的过程中执行效率不同,而数据集本身的大小也不同,另外,RDD的生命周期即某一RDD数据集的使用次数,也对序列化存储策略的选择起到关键性的作用。因此,RDD序列化的选择会受到算子运行代价、RDD执行时间及RDD跨过的Action数量等因素的影响。
在当今大数据时代,大型公司、企事业单位、政府等机构业务系统复杂,数据形式多样化,急需引入新的大数据处理平台处理海量数据,而Spark则是基于内存计算的高效分布式框架,因此其内存称为处理数据速度提升的关键因素,但是由于缓存资源有限,在处理大数据集时仍然需要将部分数据序列化存储到磁盘,影响计算性能,因此合理高效的序列化存储策略,会成为提高基于缓存迭代计算效率亟待解决的问题。
发明内容
有鉴于此,本发明的目的是提供一种基于Spark算子的序列化存储优化方法。该方法应用于现有的Spark大数据平台上,能够在内存资源有限时使整个应用保持较高的执行效率。
本发明的目的是通过以下技术方案来实现的,一种基于Spark算子的序列化存储优化方法,包括以下步骤:
S1)使用ganglia检测应用执行过程中机器的内存使用量,如果检测到当前内存值正常,则继续监测,若检测到已达到指定阈值,则执行步骤S2);
S2)计算RDD的执行时间RDD的执行效率和算子权值Wi;
S3)根据RDD的执行时间RDD的执行效率和算子权值Wi得到已排序的RDD序列即序列化候选集合;
S4)从序列化候选集合中选择值最小的进行序列化存储;
S5)继续步骤1),直到应用执行完毕。
进一步,在步骤S2)中,所述执行时间通过公式(1)获得:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710160862.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:云硬盘资源的回收方法及相关装置
- 下一篇:一种映射地址空间的分配方法及其装置