[发明专利]跨域数据联接系统、跨域数据联接方法及节点有效
申请号: | 201410065334.7 | 申请日: | 2014-02-25 |
公开(公告)号: | CN104133831B | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 汪东升;张宝权;王占业;王丽婧 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 李迪 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 联接 系统 方法 节点 | ||
技术领域
本发明涉及计算机领域,尤其涉及一种跨域数据联接系统、跨域数据联接方法及节点。
背景技术
根据Forrester Research Inc公司的研究,企业储存的数据的总量每3年就翻一翻。面对爆炸式的数据增长,如果对自身数据进行有效组织和管理已经成为各企业必须面对的一个重要挑战。HDFS(Hadoop分布式文件系统)于2005年由Apache基金会提出,是Google文件系统GFS的开源实现,在大规模数据的存储、组织与管理方面表现出了卓越的性能,由于其稳定性、可扩展性和开源免费等诸多特性,HDFS已经成为各大企业组织管理自身数据的首要选择。
Hive是Facebook基于Hadoop开发的一款数据仓库工具,它通过维护一份元数据信息将HDFS文件映射为关系型数据库领域的“表”,实现了非结构化数据在HDFS上的结构化管理,并向用户提供基于SQL语言子集Hive QL语言的查询接口,使得已经习惯于关系数据库SQL语言的程序开发人员能够更快更高效的使用Hive,也使得多年关于关系数据库的研究经验也可以更多的运用到大规模数据处理方面。
然而,无论是Hive还是受Hive启发而大量涌现的诸如Tez/Stinger、Shark/Spark、Phoenix、Hdapt/HadoopDB等SQL On Hadoop的其他项目,他们均运行于一套HDFS集群内,即只能对一套HDFS系统内部的规则化数据进行检索和计算操作。但是在很多应用场景中,要求对不同HDFS集群的规则数据进行联接操作,因此,如何实现实现跨HDFS的数据联接操作是当前需要解决的技术问题。
发明内容
本发明实施例提供一种跨域数据联接系统、跨域数据联接方法及节点,能够实现实现跨HDFS的数据联接操作。
本发明实施例采用如下技术方案:
一种跨域数据联接系统,所述系统采用分布式系统架构,运行于HDFS集群节点上,不同的HDFS集群之间采用网络通道连接,每个集群开放一个节点提供对外文件存取服务,在HDFS的每个节点上维护一个系统进程,所述系统包括:
HDFS的对外服务节点接受跨HDFS的数据联接请求,并将结果最终汇聚到接收请求的节点,最终获得联接结果。
一种基于上述系统的跨域数据联接方法,应用于HDFS集群,所述HDFS集群包含至少一个节点,所述方法包括:
对外服务节点接收到数据联接SQL语句后,对SQL语句中包含的任务进行分析,得到任务树;
处理任务树叶子节点的数据过滤子任务,数据过滤完成所得的结果集分布在HDFS的各个节点上;执行数据过滤子任务过程中,对涉及联接操作的两个节点的数据表按照SQL语句中包含的约束条件进行过滤,筛选出符合条件的结果集;
对结果集进行联接,获得联接结果。
可选的,所述对结果集进行联接,获得联接结果之前包括:
对两个结果集的大小进行比较,将较小结果集汇聚并传输到HDFS集群提供对外服务的节点上,并经由该对外服务节点传输到大结果集所在HDFS集群的对外服务节点,对外服务节点收到小结果集后,将小结果集分发给大结果集所在的各个节点上。
可选的,所述对结果集进行联接,获得联接结果包括:
大结果集所在的各节点均保存一份完整的小结果集,各节点上的大结果集部分同其所拥有的小结果集进行联接操作,最终获得联接结果。
可选的,数据过滤子任务、数据传输子任务和数据联接子任务。
一种节点,应用于跨域数据联接系统,所述系统采用分布式系统架构,运行于HDFS集群节点上,不同的HDFS集群之间采用网络通道连接,每个集群开放一个节点提供对外文件存取服务,在HDFS的每个节点上维护一个系统进程,包括:
处理模块,应用接受跨HDFS的数据联接请求,并将结果最终汇聚到接收请求的节点,最终获得联接结果。
基于上述技术方案,本发明实施例运行于HDFS集群节点上,可实现对不同HDFS集群内保存的结构化数据进行联接操作,系统部署时,仅要求不同HDFS之间通过网络连通,并所有HDFS集群各开放一个节点对外提供数据存取服务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410065334.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置