[发明专利]一种基于云计算的大数据统一分析处理方法有效
申请号: | 201310460030.6 | 申请日: | 2013-09-30 |
公开(公告)号: | CN103491187B | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 林伟伟;齐德昱 | 申请(专利权)人: | 华南理工大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 蔡茂略 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 计算 数据 统一 分析 处理 方法 | ||
技术领域
本发明涉及分布式数据处理技术,特别涉及一种基于云计算的大数据统一分析处理方法。
背景技术
随着互联网、移动互联网、物联网等应用的飞速发展,全球数据量出现了爆炸式增长。IDC公司发布的数字宇宙研究报告称,全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB。IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。预计到2020年,全球将总共拥有35ZB的数据量。数据量的飞速增长预示着我们现在已经进入了一个大数据的时代。然而,当前不仅仅是数据规模越来越大,而且数据类型多和处理实时性要求都极大地增加了大数据处理的复杂度。IDC的权威定义为:满足4V(Variety,Velocity,Volume,Value,即种类多、流量大、容量大、价值高)指标的数据称为大数据。大数据给传统的数据分析处理技术(例如并行数据库、数据仓库)带来的技术挑战有:1)传统的数据仓库技术一般只能处理TB级别的数据量,然而,大数据往往PB级别甚至EB级别,并行数据库大多支持有限扩展,一般可扩至数百节点的规模,尚未有数千节点规模的应用案例,传统数据分析处理技术无法处理大数据的高扩展性和海量需求;2)大数据涵盖了各种类型的数据,包括结构化、半结构化和非结构化数据,不同类型数据的分析不尽相同,传统数据分析处理往往只针对某一种类型数据和比较单一,大数据分析的方法也是多样化,就有数据挖掘、模式识别、数据融合与集成、时间序列分析等,数据类型的增加导致现有数据空间维度增加,极大地增加了大数据分析处理的复杂度;3)传统数据库处理能力的提高依赖于CPU/内存/存储/网络的更新升级,而大数据的处理模式是一种基于“scale-out”的模式,它的性能提高依赖于连续的往分布式系统上增加低价的计算和存储节点;4)传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销,传统的数据处理方法,已经不能适应大数据的需求。
总之,相比传统的关系数据库,大数据具有数据量巨大、结构复杂、类型众多等特点,这对大数据的存储、处理与分析提出了新的挑战,而且,大数据问题最近才被人们意识到,现有的方法不能很好地实现大数据的分析处理。
发明内容
本发明的目的在于克服现有技术方法的不足,提供一种基于云计算的大数据统一分析处理方法,该方法以云计算技术来构建海量结构化、非结构化和半结构化数据的横向扩展分布式存储平台和实现海量数据的分布式并行计算,并整合结构化、非结构化和半结构化数据的统一分析处理,克服大数据分析处理的复杂性和挑战性。
为了实现上述目的,本发明所采用的一种基于云计算的大数据统一分析处理方法,包括以下步骤:
(1)基于云计算技术构建高可扩展的海量结构化、非结构化和半结构化数据的分布式存储平台;
(1.1)采用横向扩展的MPP关系数据库实现结构化数据分布式存储;
(1.2)采用NOSQL数据库实现半结构化数据分布式存储;
(1.3)采用分布式文件系统实现非结构化数据的分布式存储;
(1.4)在每个分布式存储节点上同时放置结构化、非结构化和半结构化数据,以便实现异构数据的协同分析处理;
(2)基于云计算实现并行数据处理,在高可扩展的云计算平台上实现海量结构化、半结构化和非结构化数据的分布式并行分析处理,对异构数据的查询分析请求进行解析并制定数据处理计算的优化分布调度方式,按照查询分析的数据对象所在位置调度数据处理计算,将数据分析处理计算分布到各数据存储节点上,实现海量数据的并行分析处理;
(3)集成结构化数据查询分析接口与非结构化数据查询分析接口,实现异构数据的并行分析处理,提供统一数据访问接口;
(4)基于云服务技术为大数据应用提供结构化数据服务和非结构化数据服务。
本发明与现有的数据分析处理方法相比,具有如下优点与效果:
(l)该方法利用云计算的高扩展性和高性能可以克服大数据处理的规模不断增长和实时性需求。
(2)该方法整合了面向海量非结构化、半结构化数据的云存储和基于云计算的数据并行处理技术,与面向海量结构化数据的横向扩展的MPP关系数据库存储和无共享大规模并行数据流处理技术,可以实现不同类型的大数据统一分析处理,解决多源异构的大数据处理的复杂性问题。
(3)提出的大数据统一分析处理方法可以在查询分析处理中融合异构数据,改进数据的质量,提高数据的价值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310460030.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:通过回复电子消息来做出文档变更
- 下一篇:数据传输方法、设备及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置