[发明专利]一种基于Hadoop和Spark的可扩展性大数据分析平台在审
申请号: | 201910463031.3 | 申请日: | 2019-05-30 |
公开(公告)号: | CN110175207A | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 刘昕林;罗伟峰;邓巍;黄萍 | 申请(专利权)人: | 深圳供电局有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 北京劲创知识产权代理事务所(普通合伙) 11589 | 代理人: | 陆滢炎 |
地址: | 518048 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据接入模块 特征提取模块 分析平台 可扩展性 整合单元 拓展 大数据 整合 分布式文件系统 读取输入数据 关系型数据库 海量数据分析 数据存储方式 数据管理模块 分析模块 管理模块 全局数据 数据类型 提取单元 流管理 数据集 数据源 算子 预制 数据库 预测 帮助 | ||
本发明公开了一种基于Hadoop和Spark的可扩展性大数据分析平台,包括可拓展数据接入模块、特征提取模块、全局数据分析模块、数据管理模块、流管理模块与算子管理模块,所述可拓展数据接入模块设置有多个且其用于提供多种数据源接入,其输入数据并支持分布式文件系统、列式数据库、关系型数据库的数据存储方式;所述特征提取模块与多个可拓展数据接入模块连接且其用于读取输入数据,其包括整合单元与数据类型提取单元,整合单元接收多个可拓展数据接入模块的输入数据并对输入数据进行整合,其将输入数据整合成预制数据集。本发明具有处理更快、预测更准确,具有稳定可靠、容易扩展的特点,可以进行海量数据分析以帮助用户更好地从数据中获取价值。
技术领域
本发明涉及大数据分析领域,具体为一种基于Hadoop和Spark的可扩展性大数据分析平台。
背景技术
随着互联网、移动互联网、物联网等应用的飞速发展,全球数据量出现了爆炸式增长。IDC公司发布的数字宇宙研究报告称,全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB。IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。预计到2020年,全球将总共拥有35ZB的数据量。数据量的飞速增长预示着我们现在已经进入了一个大数据的时代。然而,当前不仅仅是数据规模越来越大,而且数据类型多和处理实时性要求都极大地增加了大数据处理的复杂度。
分布式计算框架spark适用于海量数据场景下的数据分析挖掘,spark的数据结构ataframe类似于python和R语言的dataframe,是一种结构化的数据处理结构,具有行索引和列索引。基于这些特性,可以方便、精确地对数据进行处理,dataframe本身自带了很多用于数据清洗加工的API,很多复杂的功能通过简单的调用即可实现。目前应用于大数据分析的分析平台方案单一、数据处理效率低下,同时可扩展性差。
发明内容
本发明的目的在于提供一种基于Hadoop和Spark的可扩展性大数据分析平台,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于Hadoop和Spark的可扩展性大数据分析平台,包括可拓展数据接入模块、特征提取模块、全局数据分析模块、数据管理模块、流管理模块与算子管理模块,所述可拓展数据接入模块设置有多个且其用于提供多种数据源接入,其输入数据并支持分布式文件系统、列式数据库、关系型数据库的数据存储方式;所述特征提取模块与多个可拓展数据接入模块连接且其用于读取输入数据,其包括整合单元与数据类型提取单元,整合单元接收多个可拓展数据接入模块的输入数据并对输入数据进行整合,其将输入数据整合成预制数据集;所述数据类型提取单元与整合单元连接且其用于获取预制数据集,其推测预制数据集中每一列的数据类型,并对其进行数据类型标注。
优选的,全局数据分析模块具有全局存储单元,全局数据分析模块与数据类型提取单元连接且其用于对预制数据集进行批量全局分析或在线实时全局分析,其基于内存进行迭代式计算,对海量预制数据集进行全局分析并在分析后将其分解存储至全局存储单元。
优选的,数据管理模块用于对全局存储单元中数据进行管理,其通过http协议将数据上传到平台的分布式文件系统中。
优选的,流管理模块用于对平台中的工作流进行管理、增删改查。
优选的,算子管理模块用于对平台中封装的各类spark算子进行管理,并由平台对这些算子进行图形化封装,算子管理模块利用spark dataframe算子分类目录式管理方法将算子进行分类,以及管理、展示并生成分类目录。
优选的,算子管理模块包括切片单元,切片单元用以按预设周期获取算子切片并对该算子切片进行管理。
本发明还提供了上述一种基于Hadoop和Spark的可扩展性大数据分析平台的分析方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳供电局有限公司,未经深圳供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910463031.3/2.html,转载请声明来源钻瓜专利网。