[发明专利]一种基于云计算的大数据统一分析处理方法有效

专利信息
申请号: 201310460030.6 申请日: 2013-09-30
公开(公告)号: CN103491187B 公开(公告)日: 2018-04-27
发明(设计)人: 林伟伟;齐德昱 申请(专利权)人: 华南理工大学
主分类号: H04L29/08 分类号: H04L29/08;G06F17/30
代理公司: 广州市华学知识产权代理有限公司44245 代理人: 蔡茂略
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 计算 数据 统一 分析 处理 方法
【说明书】:

技术领域

发明涉及分布式数据处理技术,特别涉及一种基于云计算的大数据统一分析处理方法。

背景技术

随着互联网、移动互联网、物联网等应用的飞速发展,全球数据量出现了爆炸式增长。IDC公司发布的数字宇宙研究报告称,全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB。IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。预计到2020年,全球将总共拥有35ZB的数据量。数据量的飞速增长预示着我们现在已经进入了一个大数据的时代。然而,当前不仅仅是数据规模越来越大,而且数据类型多和处理实时性要求都极大地增加了大数据处理的复杂度。IDC的权威定义为:满足4V(Variety,Velocity,Volume,Value,即种类多、流量大、容量大、价值高)指标的数据称为大数据。大数据给传统的数据分析处理技术(例如并行数据库、数据仓库)带来的技术挑战有:1)传统的数据仓库技术一般只能处理TB级别的数据量,然而,大数据往往PB级别甚至EB级别,并行数据库大多支持有限扩展,一般可扩至数百节点的规模,尚未有数千节点规模的应用案例,传统数据分析处理技术无法处理大数据的高扩展性和海量需求;2)大数据涵盖了各种类型的数据,包括结构化、半结构化和非结构化数据,不同类型数据的分析不尽相同,传统数据分析处理往往只针对某一种类型数据和比较单一,大数据分析的方法也是多样化,就有数据挖掘、模式识别、数据融合与集成、时间序列分析等,数据类型的增加导致现有数据空间维度增加,极大地增加了大数据分析处理的复杂度;3)传统数据库处理能力的提高依赖于CPU/内存/存储/网络的更新升级,而大数据的处理模式是一种基于“scale-out”的模式,它的性能提高依赖于连续的往分布式系统上增加低价的计算和存储节点;4)传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销,传统的数据处理方法,已经不能适应大数据的需求。

总之,相比传统的关系数据库,大数据具有数据量巨大、结构复杂、类型众多等特点,这对大数据的存储、处理与分析提出了新的挑战,而且,大数据问题最近才被人们意识到,现有的方法不能很好地实现大数据的分析处理。

发明内容

本发明的目的在于克服现有技术方法的不足,提供一种基于云计算的大数据统一分析处理方法,该方法以云计算技术来构建海量结构化、非结构化和半结构化数据的横向扩展分布式存储平台和实现海量数据的分布式并行计算,并整合结构化、非结构化和半结构化数据的统一分析处理,克服大数据分析处理的复杂性和挑战性。

为了实现上述目的,本发明所采用的一种基于云计算的大数据统一分析处理方法,包括以下步骤:

(1)基于云计算技术构建高可扩展的海量结构化、非结构化和半结构化数据的分布式存储平台;

(1.1)采用横向扩展的MPP关系数据库实现结构化数据分布式存储;

(1.2)采用NOSQL数据库实现半结构化数据分布式存储;

(1.3)采用分布式文件系统实现非结构化数据的分布式存储;

(1.4)在每个分布式存储节点上同时放置结构化、非结构化和半结构化数据,以便实现异构数据的协同分析处理;

(2)基于云计算实现并行数据处理,在高可扩展的云计算平台上实现海量结构化、半结构化和非结构化数据的分布式并行分析处理,对异构数据的查询分析请求进行解析并制定数据处理计算的优化分布调度方式,按照查询分析的数据对象所在位置调度数据处理计算,将数据分析处理计算分布到各数据存储节点上,实现海量数据的并行分析处理;

(3)集成结构化数据查询分析接口与非结构化数据查询分析接口,实现异构数据的并行分析处理,提供统一数据访问接口;

(4)基于云服务技术为大数据应用提供结构化数据服务和非结构化数据服务。

本发明与现有的数据分析处理方法相比,具有如下优点与效果:

(l)该方法利用云计算的高扩展性和高性能可以克服大数据处理的规模不断增长和实时性需求。

(2)该方法整合了面向海量非结构化、半结构化数据的云存储和基于云计算的数据并行处理技术,与面向海量结构化数据的横向扩展的MPP关系数据库存储和无共享大规模并行数据流处理技术,可以实现不同类型的大数据统一分析处理,解决多源异构的大数据处理的复杂性问题。

(3)提出的大数据统一分析处理方法可以在查询分析处理中融合异构数据,改进数据的质量,提高数据的价值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310460030.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top