[发明专利]一种面向空间数据连接操作的分布式数据存取方法有效

专利信息
申请号: 201410444716.0 申请日: 2014-09-03
公开(公告)号: CN104239469B 公开(公告)日: 2017-09-19
发明(设计)人: 陆佳民;冯钧 申请(专利权)人: 河海大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京苏高专利商标事务所(普通合伙)32204 代理人: 李玉平
地址: 211100 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 空间 数据 连接 操作 分布式 存取 方法
【说明书】:

技术领域

发明涉及一种面向空间数据连接操作的分布式数据存取方法,属于信息技术处理领域。

背景技术

空间数据的连接操作是指发现符合一定空间关系(覆盖、邻近、包含等)的空间对象二元组,一般分为两个步骤:过滤与精化。前者利用空间数据的概要进行来发现符合查询要求的候选集,而后者则利用空间对象的高精度形状数据来进行比较,以得到最终的连接结果。在基于MapReduce并行处理模式进行空间连接操作时,Map阶段需用于对空间对象进行粗粒度聚类,而上述两个步骤都则只可以在Reduce阶段完成,因此需要将所有非过滤候选集的空间对象数据也通过网络进行远程存取,产生大量不必要的代价。

非过滤候选集的空间数据的远程存取代价构成了面向分布式环境的空间数据连接连接操作的一个技术难点。

目前面向分布式环境的数据远程存取的方法主要有:Jeffrey Dean 和 Sanjay Ghemawat提出的MapReduce并行处理模式,阐述了并行化环境下数据处理的标准流程与体系结构,为实现空间数据连接操作提供了良好的基础。在此基础上由Apache基金会实现的Hadoop平台则成为主流的并行处理平台,所有数据按照键-值对的形式存储在分布式文件系统HDFS,并在需要时进行远程存取(Dean, J. & Ghemawat, S. MapReduce: Simplified Data Processing on Large Clusters Proceedings of the 6th Symposium on Operating Systems Design & Implementation - Volume 6, USENIX Association, 2004)。Shubin Zhang等在MapReduce并行处理模式的基础上对空间数据的并行化连接操作进行了实现,由于过滤与精化均在Reduce阶段进行处理,因此通过HDFS对全体空间对象数据进行远程读取(Zhang, S.; Han, J.; Liu, Z.; Wang, K. & Xu, Z. SJMR: Parallelizing Spatial Join With MapReduce on Clusters Cluster Computing and Workshops, 2009)。Jens Dittrich等人在HDFS基础上,建立了Hadoop++系统,对所有存储在HDFS上的文件建立内部索引。尽管没有减少远程存取的数据量,但在对数据进行读取后,借由内部索引可以加快本地数据的读取速度(Dittrich, J.; Quiane-Ruiz, J.; Jindal, A.; Kargin, Y.; Setty, V. & Schad, J. Hadoop++: Making A Yellow Elephant Run Like A Cheetah (Without It Even Noticing) Proceedings of the VLDB Endowment, 2010)。Yongqiang He等提出了列式分布存储结构,将关系数据表中的每一列作为HDFS中的独立模块进行远程存取,减小了关系数据操作中对于无关数据的存取代价(He, Y.; Lee, R.; Huai, Y.; Shao, Z.; Jain, N.; Zhang, X. & Xu, Z. RCFile: A fast and space-efficient data placement structure in MapReduce-based warehouse systems Data Engineering (ICDE), 2011 IEEE 27th International Conference on, 2011)。

目前,涉及到分布式环境下数据远程存取的方法在针对空间数据对象进行连接操作时,均需对全体对象的高精度形状数据进行远程存取。

发明内容

本发明所要解决的技术问题是针对上述背景技术的不足,提供了一种面向空间数据连接操作的分布式数据存取方法。

本发明为实现上述发明目的采用如下技术方案:

步骤1,对给定的分布式空间数据样本进行抽样,进而制定出多维空间内的细粒度网格结构,方法如下:

步骤1-1,对于分布在并行数据库内,以两个关系数据表形式所存储的空间数据进行样本抽取;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410444716.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top