[发明专利]一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法有效
申请号: | 201710788398.3 | 申请日: | 2017-09-05 |
公开(公告)号: | CN107526600B | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 普雪飞;竹登虎;勇萌哲;钟颖;杨佑禄 | 申请(专利权)人: | 成都优易数据有限公司 |
主分类号: | G06F8/34 | 分类号: | G06F8/34;G06F16/26 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 廖祥文 |
地址: | 611730 四川省成都市郫县德源镇(菁*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hadoop spark 可视化 数据 挖掘 分析 平台 及其 清洗 方法 | ||
1.一种基于hadoop和spark的可视化数据挖掘分析平台,其特征在于,该平台包括数据管理模块、工作流管理模块、算子管理模块及算子运行调度管理模块;其中,数据管理模块,对整个系统中的数据文件进行管理,通过http协议将数据从本地上传到系统的hdfs中,供平台中的算子使用;工作流管理模块,对平台中的工作流进行管理、增删改查,工作流是各个算子按执行顺序连接起来构成的数据挖掘分析流程;算子管理模块,对平台中封装的各类spark算子进行管理,平台对这些算子进行图形化封装,通过拖动算子对应的图形并通过连线连接各个算子,构建数据挖掘分析工作流;算子运行调度管理模块,对平台中的算子构建的工作流运行进行管理;
所述平台的数据清洗方法,包括以下步骤:
S0基于hadoop和spark框架,在平台中对spark中与数据处理相关的算子进行图形化封装;
S1数据上传:通过http协议将数据从本地上传到平台的hdfs中;
S2算子集成:通过spark dataframe的算子封装格式,在平台中集成添加各类
dataframe算子;
S3算子管理:在dataframe算子集成中,利用spark dataframe算子分类目录式管理方法,将不同dataframe算子按功能进行分类,平台按分类结果对算子进行可视化的管理及展示,并形成分类目录;
S4数据清洗流程构建:自由拖拽分类目录中的dataframe算子至工作流编辑区,在满足前后逻辑正确的情况下任意构建数据清洗流程;
S5导入功能:导入之前已建立并保存在本地的工作流,该工作流以xml的形式保存,系统通过解析xml文件在系统中还原并建立该工作流;
S6自定义数据清洗功能:在算子管理的分类目录中添加脚本编写算子,通过该算子提供的脚本编辑窗口进行spark脚本编写,并通过定义数据的输入和输出接口与其他算子间的前后数据交互;
S7保存已搭建好的建模工作流;
S8启动建模工作流,后台执行数据清洗;
S9查看工作流运行结果。
2.根据权利要求1所述的可视化数据挖掘分析平台,其特征在于,工作流管理模块提供工作流的导入和导出,导入和导出通过xml文件作为中间媒介,用于对平台中的工作流进行管理、增删改查。
3.根据权利要求1所述的可视化数据挖掘分析平台,其特征在于,算子管理模块中各类spark算子种类包括数据抽取、数据加载、数据转换、数据建模以及建模评估。
4.根据权利要求1所述的可视化数据挖掘分析平台,其特征在于,算子运行调度管理模块中,管理内容包括工作流启动和停止、工作流中各个算子顺序执行的调度。
5.根据权利要求1所述的可视化数据挖掘分析平台,其特征在于,所述算子集成方法包括spark
dataframe算子封装集成方法和平台集成方法。
6.根据权利要求1所述的可视化数据挖掘分析平台,其特征在于,所述构建数据清洗流程的方式为使用可视化的箭头将各算子连接起来。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都优易数据有限公司,未经成都优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710788398.3/1.html,转载请声明来源钻瓜专利网。