[发明专利]RDD partition内部数据索引建立方法、点查方法及joinRDD点查方法在审

专利信息
申请号: 202010125495.6 申请日: 2020-02-27
公开(公告)号: CN111309735A 公开(公告)日: 2020-06-19
发明(设计)人: 黄伟 申请(专利权)人: 苏州浪潮智能科技有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F16/2455;G06F16/25;G06F16/28
代理公司: 济南舜源专利事务所有限公司 37205 代理人: 刘雪萍
地址: 215100 江苏省苏州市吴*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: rdd partition 内部 数据 索引 建立 方法 joinrdd
【说明书】:

发明公开一种RDD的partition内部数据索引建立方法、RDD点查方法及join RDD点查方法,对RDD Partition内部数据建立索引,使用HashMap来存放每条数据在Partition的位置信息,所有Partition的索引组合行程RDD的索引,在进行key的查找时,不需要遍历Partition中的所有数据,而是直接通过HashMap查找到key在Partition中的位置,然后利用Partition Iterator的slice接口直接从Partition的特定位置获取对应的value。解决了Spark原生lookup API性能不佳的问题,达到了提高查询效率的技术效果。另外可以通过对需要join的两个RDD创建索引,然后对索引执行查询的方式,来避免RDD的实际join,可有有效防止OOM的发生,并且提高查询的效率。

技术领域

本发明涉及RDD索引领域,具体涉及一种RDD的partition内部数据索引建立方法、RDD点查方法及join RDD点查方法。

背景技术

随着大数据处理的发展,对于处理速度的要求越来越高,传统的基于磁盘存储的分布式大数据处理平台在应对大数据处理,尤其是机器学习和迭代运算等类型的数据处理时越来越力不从心。内存计算技术应运而生,内存计算是基于内存的,不需要在处理过程中频繁的将中间结果存入磁盘,因此避免了不必要的I/O开销。内存计算技术带来的优势是显著的。首先,其能够有效加速对海量数据的复杂分析处理,帮助企业快速、准确地制定决策,积极响应市场变化;其次,内存计算将改变传统的OLTP(Online Analytical Processings,联机事务处理)与OLAP(Online Transaction Processing,联机分析处理)分离的数据处理现状,在系统级别(非接口级别)实现两者的融合,加速数据从产生到分析性报告出具的过程。

现有的内存计算平台应用最广泛的是Spark,Spark提出了自己的数据模型RDD(Resilient Distributed Datasets,弹性分布式数据集)用来封装数据,每个RDD都包含:(1)一组partitions,即RDD的分区;(2)对父RDD的一组依赖,这些依赖描述了RDD的Lineage;(3)一个函数,即在父RDD上执行何种计算;(4)元数据,描述分区模式和数据存放的位置;(5)partitioner,即RDD分区器,表示RDD是否是经过分区器分区的。基于RDD可以快速的构建出作业执行的有向无环图(DAG),使得其相比于MapReduce,更加适合于处理有向无环图类型的应用(比如迭代任务和交互式分析),Lineage机制可以实现高效的容错,Scala的函数式编程也使得一致性问题得到很好的控制。这些特点使得Spark在处理批量数据时性能很好。Spark在粗粒度的批量数据处理方面表现优异,但是在细粒度的数据处理时的性能就要差很多。文献[Zhang,H.,et al.,Efficient In-memory Data Management:AnAnalysis.Proceedings of the VLDB]中对于Spark RDD,Memcached,Redis的对象级操作做了对比试验,实验结果表明Spark RDD在集群和单点环境下的单点查询性能都不好。

RDD是Spark的数据结构,任何在Spark中处理的数据都会被封装成RDD,RDD只能通过从外部数据源获得或者由其他的RDD转而来,RDD包括一组Partition,每个Partition都包含了RDD的部分数据,Partition分布式地分布在集群机器上。在创建RDD时有一个泛型参数K,即RDD[K],对于(K,V)类型的数据则构建成RDD[(K,V)],针对于RDD[(K,V)],Spark提供了lookup API来实现RDD的点查功能。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010125495.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top