[发明专利]基于缓存价值的Spark缓存淘汰方法及系统有效
申请号: | 202010837412.6 | 申请日: | 2020-08-19 |
公开(公告)号: | CN112015765B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 熊安萍;杨孟达;田野;龙林波;蒋溢 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2458 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 缓存 价值 spark 淘汰 方法 系统 | ||
本发明涉及大数据计算领域,具体涉及一种基于缓存价值的Spark缓存淘汰方法及系统,包括:根据基于RDD信息的缓存价值模型得到每个RDD的初始缓存价值;利用改进的快速排序算法对RDD进行排序,得到RDD序列;依据初始缓存价值由高到低的顺序依次将RDD序列中RDD的计算结果存放到集群节点内存中;在任务动态执行过程中每个Stage结束时更新RDD信息;当节点内存不足时,利用基于Block信息的缓存价值模型计算已缓存Block的缓存价值;淘汰缓存价值小的Block释放内存空间。本发明将最具有缓存价值的RDD保存在内存中,及时清理不使用的Block,提升计算速度,减少RDD重算开销,优化内存资源利用率。
技术领域
本发明涉及大数据计算领域,具体涉及一种基于RDD(Resilent DistributedDatasets,弹性分布式数据集)和Block缓存价值的Spark缓存方法及系统。
背景技术
在如今的大大数据时代,数据量呈指数级的增长,大数据处理日益受到人们的重视,为快速处理这些海量的数据信息,越来越多的应用及科学研究项目都将基于庞大的数据集进行处理和分析,涌现出一些大数据计算框架,例如:面向大规模数据处理的MapReduce并行计算模型、开源的大数据计算框架Hadoop、Spark框架等。Hadoop框架在多个应用程序域和大数据处理方案中的局限性,例如大规模结构化数据、图形数据和流数据,目前Apache Spark已经成为用于跨各种工作负载进行大规模数据分析的统一引擎,其先进的编程模型已被学术界和工业界用作快速且可扩展的计算框架。
Spark作为基于内存的计算框架,在保留了MapReduce计算模型的容错机制的同时,将数据交换从磁盘级别提高到内存级别,极大提高了大数据计算的处理效率。Spark的主要核心技术是将数据抽象成弹性分布式数据集(RDD),以分区的方式分布在集群中不同的机器上,在底层被并行计算处理。RDD是不可变的数据集,只能从HDFS或者文件中生成或者通过转换操作产生新的数据集合,在Spark运行过程中,新生成的RDD将缓存在集群的内存中,以便在下一次计算中使用。RDD支持基于工作集的应用,同时具有数据流模型的特点:即自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,极大地加速了后期的工作集重用。RDD提供了一种高度受限的共享内存方式,即RDD是只读的记录分区的集合,只能通过对其他RDD执行确定性的转换操作(如map,join和group by)而创建。Spark通过对计算集群的内存使用来减小对HDFS之类的分布式文件系统的依赖性,并且基于RDD的数据集抽象,在积累一定量操作后再读数据以执行,且在计算时提供有效的数据共享,从而大大减少了磁盘I/O开销和数据处理时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010837412.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:粗抛方法
- 下一篇:四驱电动车动力分配方法和装置