[发明专利]一种基于Hadoop和Spark的可扩展性大数据分析平台在审
申请号: | 201910463031.3 | 申请日: | 2019-05-30 |
公开(公告)号: | CN110175207A | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 刘昕林;罗伟峰;邓巍;黄萍 | 申请(专利权)人: | 深圳供电局有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 北京劲创知识产权代理事务所(普通合伙) 11589 | 代理人: | 陆滢炎 |
地址: | 518048 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据接入模块 特征提取模块 分析平台 可扩展性 整合单元 拓展 大数据 整合 分布式文件系统 读取输入数据 关系型数据库 海量数据分析 数据存储方式 数据管理模块 分析模块 管理模块 全局数据 数据类型 提取单元 流管理 数据集 数据源 算子 预制 数据库 预测 帮助 | ||
1.一种基于Hadoop和Spark的可扩展性大数据分析平台,其特征在于,包括可拓展数据接入模块(1)、特征提取模块(2)、全局数据分析模块(3)、数据管理模块(4)、流管理模块(5)与算子管理模块(6),所述可拓展数据接入模块(1)设置有多个且其用于提供多种数据源接入,其输入数据并支持分布式文件系统、列式数据库、关系型数据库的数据存储方式;
所述特征提取模块(2)与多个可拓展数据接入模块(1)连接且其用于读取输入数据,其包括整合单元(21)与数据类型提取单元(22),整合单元(21)接收多个可拓展数据接入模块的输入数据并对输入数据进行整合,其将输入数据整合成预制数据集;所述数据类型提取单元(22)与整合单元(21)连接且其用于获取预制数据集,其推测预制数据集中每一列的数据类型,并对其进行数据类型标注。
2.根据权利要求1所述的一种基于Hadoop和Spark的可扩展性大数据分析平台,其特征在于,所述全局数据分析模块(3)具有全局存储单元,全局数据分析模块(3)与数据类型提取单元(22)连接且其用于对预制数据集进行批量全局分析或在线实时全局分析,其基于内存进行迭代式计算,对海量预制数据集进行全局分析并在分析后将其分解存储至全局存储单元。
3.根据权利要求1或2所述的一种基于Hadoop和Spark的可扩展性大数据分析平台,其特征在于,所述数据管理模块(4)用于对全局存储单元中数据进行管理,其通过http协议将数据上传到平台的分布式文件系统中。
4.根据权利要求1所述的一种基于Hadoop和Spark的可扩展性大数据分析平台,其特征在于,所述流管理模块(5)用于对平台中的工作流进行管理、增删改查。
5.根据权利要求1所述的一种基于Hadoop和Spark的可扩展性大数据分析平台,其特征在于,所述算子管理模块(6)用于对平台中封装的各类spark算子进行管理,并由平台对这些算子进行图形化封装,算子管理模块(6)利用spark dataframe算子分类目录式管理方法将算子进行分类,以及管理、展示并生成分类目录。
6.根据权利要求5所述的一种基于Hadoop和Spark的可扩展性大数据分析平台,其特征在于,所述算子管理模块(6)包括切片单元,切片单元用以按预设周期获取算子切片并对该算子切片进行管理。
7.根据权利要求1-6任一所述的一种基于Hadoop和Spark的可扩展性大数据分析平台的分析方法,其特征在于,包括以下步骤:
S1:可拓展数据接入模块(1)提供多种数据源接入并将数据源接入特征提取模块(2);
S2:特征提取模块(2)获取多种数据源并对其进行整合、提取;
S3:全局数据分析模块(3)对整合、提取后的数据进行全局分析,全局分析后将其发送至数据管理模块(4);
S4:数据管理模块(4)对全局存储单元中数据进行管理,并通过http协议将数据上传到平台的分布式文件系统中;
S5:算子管理模块(6)对平台中封装的各类spark算子进行周期性管理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳供电局有限公司,未经深圳供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910463031.3/1.html,转载请声明来源钻瓜专利网。