[发明专利]一种基于Hadoop和Spark的可扩展性大数据分析平台在审
申请号: | 201910463031.3 | 申请日: | 2019-05-30 |
公开(公告)号: | CN110175207A | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 刘昕林;罗伟峰;邓巍;黄萍 | 申请(专利权)人: | 深圳供电局有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 北京劲创知识产权代理事务所(普通合伙) 11589 | 代理人: | 陆滢炎 |
地址: | 518048 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Hadoop和Spark的可扩展性大数据分析平台,包括可拓展数据接入模块、特征提取模块、全局数据分析模块、数据管理模块、流管理模块与算子管理模块,所述可拓展数据接入模块设置有多个且其用于提供多种数据源接入,其输入数据并支持分布式文件系统、列式数据库、关系型数据库的数据存储方式;所述特征提取模块与多个可拓展数据接入模块连接且其用于读取输入数据,其包括整合单元与数据类型提取单元,整合单元接收多个可拓展数据接入模块的输入数据并对输入数据进行整合,其将输入数据整合成预制数据集。本发明具有处理更快、预测更准确,具有稳定可靠、容易扩展的特点,可以进行海量数据分析以帮助用户更好地从数据中获取价值。 | ||
搜索关键词: | 数据接入模块 特征提取模块 分析平台 可扩展性 整合单元 拓展 大数据 整合 分布式文件系统 读取输入数据 关系型数据库 海量数据分析 数据存储方式 数据管理模块 分析模块 管理模块 全局数据 数据类型 提取单元 流管理 数据集 数据源 算子 预制 数据库 预测 帮助 | ||
【主权项】:
1.一种基于Hadoop和Spark的可扩展性大数据分析平台,其特征在于,包括可拓展数据接入模块(1)、特征提取模块(2)、全局数据分析模块(3)、数据管理模块(4)、流管理模块(5)与算子管理模块(6),所述可拓展数据接入模块(1)设置有多个且其用于提供多种数据源接入,其输入数据并支持分布式文件系统、列式数据库、关系型数据库的数据存储方式;所述特征提取模块(2)与多个可拓展数据接入模块(1)连接且其用于读取输入数据,其包括整合单元(21)与数据类型提取单元(22),整合单元(21)接收多个可拓展数据接入模块的输入数据并对输入数据进行整合,其将输入数据整合成预制数据集;所述数据类型提取单元(22)与整合单元(21)连接且其用于获取预制数据集,其推测预制数据集中每一列的数据类型,并对其进行数据类型标注。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳供电局有限公司,未经深圳供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910463031.3/,转载请声明来源钻瓜专利网。