[发明专利]一种面向空间数据连接操作的分布式数据存取方法有效
申请号: | 201410444716.0 | 申请日: | 2014-09-03 |
公开(公告)号: | CN104239469B | 公开(公告)日: | 2017-09-19 |
发明(设计)人: | 陆佳民;冯钧 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 空间 数据 连接 操作 分布式 存取 方法 | ||
技术领域
本发明涉及一种面向空间数据连接操作的分布式数据存取方法,属于信息技术处理领域。
背景技术
空间数据的连接操作是指发现符合一定空间关系(覆盖、邻近、包含等)的空间对象二元组,一般分为两个步骤:过滤与精化。前者利用空间数据的概要进行来发现符合查询要求的候选集,而后者则利用空间对象的高精度形状数据来进行比较,以得到最终的连接结果。在基于MapReduce并行处理模式进行空间连接操作时,Map阶段需用于对空间对象进行粗粒度聚类,而上述两个步骤都则只可以在Reduce阶段完成,因此需要将所有非过滤候选集的空间对象数据也通过网络进行远程存取,产生大量不必要的代价。
非过滤候选集的空间数据的远程存取代价构成了面向分布式环境的空间数据连接连接操作的一个技术难点。
目前面向分布式环境的数据远程存取的方法主要有:Jeffrey Dean 和 Sanjay Ghemawat提出的MapReduce并行处理模式,阐述了并行化环境下数据处理的标准流程与体系结构,为实现空间数据连接操作提供了良好的基础。在此基础上由Apache基金会实现的Hadoop平台则成为主流的并行处理平台,所有数据按照键-值对的形式存储在分布式文件系统HDFS,并在需要时进行远程存取(Dean, J. & Ghemawat, S. MapReduce: Simplified Data Processing on Large Clusters Proceedings of the 6th Symposium on Operating Systems Design & Implementation - Volume 6, USENIX Association, 2004)。Shubin Zhang等在MapReduce并行处理模式的基础上对空间数据的并行化连接操作进行了实现,由于过滤与精化均在Reduce阶段进行处理,因此通过HDFS对全体空间对象数据进行远程读取(Zhang, S.; Han, J.; Liu, Z.; Wang, K. & Xu, Z. SJMR: Parallelizing Spatial Join With MapReduce on Clusters Cluster Computing and Workshops, 2009)。Jens Dittrich等人在HDFS基础上,建立了Hadoop++系统,对所有存储在HDFS上的文件建立内部索引。尽管没有减少远程存取的数据量,但在对数据进行读取后,借由内部索引可以加快本地数据的读取速度(Dittrich, J.; Quiane-Ruiz, J.; Jindal, A.; Kargin, Y.; Setty, V. & Schad, J. Hadoop++: Making A Yellow Elephant Run Like A Cheetah (Without It Even Noticing) Proceedings of the VLDB Endowment, 2010)。Yongqiang He等提出了列式分布存储结构,将关系数据表中的每一列作为HDFS中的独立模块进行远程存取,减小了关系数据操作中对于无关数据的存取代价(He, Y.; Lee, R.; Huai, Y.; Shao, Z.; Jain, N.; Zhang, X. & Xu, Z. RCFile: A fast and space-efficient data placement structure in MapReduce-based warehouse systems Data Engineering (ICDE), 2011 IEEE 27th International Conference on, 2011)。
目前,涉及到分布式环境下数据远程存取的方法在针对空间数据对象进行连接操作时,均需对全体对象的高精度形状数据进行远程存取。
发明内容
本发明所要解决的技术问题是针对上述背景技术的不足,提供了一种面向空间数据连接操作的分布式数据存取方法。
本发明为实现上述发明目的采用如下技术方案:
步骤1,对给定的分布式空间数据样本进行抽样,进而制定出多维空间内的细粒度网格结构,方法如下:
步骤1-1,对于分布在并行数据库内,以两个关系数据表形式所存储的空间数据进行样本抽取;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410444716.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可伸缩可折叠的拖把
- 下一篇:可高温灭菌的拖把
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置