[发明专利]RDD partition内部数据索引建立方法、点查方法及joinRDD点查方法在审
申请号: | 202010125495.6 | 申请日: | 2020-02-27 |
公开(公告)号: | CN111309735A | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 黄伟 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455;G06F16/25;G06F16/28 |
代理公司: | 济南舜源专利事务所有限公司 37205 | 代理人: | 刘雪萍 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | rdd partition 内部 数据 索引 建立 方法 joinrdd | ||
本发明公开一种RDD的partition内部数据索引建立方法、RDD点查方法及join RDD点查方法,对RDD Partition内部数据建立索引,使用HashMap来存放每条数据在Partition的位置信息,所有Partition的索引组合行程RDD的索引,在进行key的查找时,不需要遍历Partition中的所有数据,而是直接通过HashMap查找到key在Partition中的位置,然后利用Partition Iterator的slice接口直接从Partition的特定位置获取对应的value。解决了Spark原生lookup API性能不佳的问题,达到了提高查询效率的技术效果。另外可以通过对需要join的两个RDD创建索引,然后对索引执行查询的方式,来避免RDD的实际join,可有有效防止OOM的发生,并且提高查询的效率。
技术领域
本发明涉及RDD索引领域,具体涉及一种RDD的partition内部数据索引建立方法、RDD点查方法及join RDD点查方法。
背景技术
随着大数据处理的发展,对于处理速度的要求越来越高,传统的基于磁盘存储的分布式大数据处理平台在应对大数据处理,尤其是机器学习和迭代运算等类型的数据处理时越来越力不从心。内存计算技术应运而生,内存计算是基于内存的,不需要在处理过程中频繁的将中间结果存入磁盘,因此避免了不必要的I/O开销。内存计算技术带来的优势是显著的。首先,其能够有效加速对海量数据的复杂分析处理,帮助企业快速、准确地制定决策,积极响应市场变化;其次,内存计算将改变传统的OLTP(Online Analytical Processings,联机事务处理)与OLAP(Online Transaction Processing,联机分析处理)分离的数据处理现状,在系统级别(非接口级别)实现两者的融合,加速数据从产生到分析性报告出具的过程。
现有的内存计算平台应用最广泛的是Spark,Spark提出了自己的数据模型RDD(Resilient Distributed Datasets,弹性分布式数据集)用来封装数据,每个RDD都包含:(1)一组partitions,即RDD的分区;(2)对父RDD的一组依赖,这些依赖描述了RDD的Lineage;(3)一个函数,即在父RDD上执行何种计算;(4)元数据,描述分区模式和数据存放的位置;(5)partitioner,即RDD分区器,表示RDD是否是经过分区器分区的。基于RDD可以快速的构建出作业执行的有向无环图(DAG),使得其相比于MapReduce,更加适合于处理有向无环图类型的应用(比如迭代任务和交互式分析),Lineage机制可以实现高效的容错,Scala的函数式编程也使得一致性问题得到很好的控制。这些特点使得Spark在处理批量数据时性能很好。Spark在粗粒度的批量数据处理方面表现优异,但是在细粒度的数据处理时的性能就要差很多。文献[Zhang,H.,et al.,Efficient In-memory Data Management:AnAnalysis.Proceedings of the VLDB]中对于Spark RDD,Memcached,Redis的对象级操作做了对比试验,实验结果表明Spark RDD在集群和单点环境下的单点查询性能都不好。
RDD是Spark的数据结构,任何在Spark中处理的数据都会被封装成RDD,RDD只能通过从外部数据源获得或者由其他的RDD转而来,RDD包括一组Partition,每个Partition都包含了RDD的部分数据,Partition分布式地分布在集群机器上。在创建RDD时有一个泛型参数K,即RDD[K],对于(K,V)类型的数据则构建成RDD[(K,V)],针对于RDD[(K,V)],Spark提供了lookup API来实现RDD的点查功能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010125495.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置